L’Intelligenza artificiale non ragiona logicamente

Le Intelligenze artificiali generative dimostrano di non essere razionali quando sono sottoposte a test di ragionamento. Riportano, infatti, le stesse percentuali di errore degli umani, ma lo fanno in modo diverso, dimostrando che non sono in grado di cogliere il senso delle parole e del contesto. È quanto emerge da uno studio in via di pubblicazione sulla rivista Royal Society Open Science e realizzato dai ricercatori dell’University College di Londra Olivia Macmillan-Scott e l’italiano Mirco Musolesi, che lavora anche all’Università di Bologna. “Il nostro lavoro partiva dalla volontà di capire se i modelli linguistici usati oggi dimostrassero una capacità di ragionamento logico e, nel caso, di trovare un metodo per misurarla”, ha detto all’Ansa Macmillan-Scott. Quando si chatta con le Intelligenze artificiali è infatti molto facile dimenticare che l’interlocutore è semplicemente un algoritmo e a volte si attribuiscono ai chatbot capacità logiche molto sofisticate.

Per misurarle i due ricercatori hanno sottoposto i più popolari chatbot, da ChatGpt 4 e 3.5 fino a Bard e Llama, ad alcuni classici test logici usati in psicologia cognitiva, come la selezione di Wason in cui vengono mostrate 4 carte che da un lato hanno un numero e sull’altro una lettera. Sul tavolo due carte mostrano il numero, ad esempio un 3 e un 8, le altre due mostrano una vocale e una consonante. La domanda che viene posta è: Quale carta o carte devi girare per verificare la verità della proposizione che se una carta mostra un numero pari su una faccia, allora la sua faccia opposta è una vocale? Un test arduo, tanto che solo il 10 per cento degli umani riesce a rispondere correttamente al primo tentativo, ma dalle cui risposte è possibile spesso dedurre il ragionamento fatto.

Sottoposti a 12 test differenti, i chatbot hanno spesso fornito risposte diverse quando veniva posta la stessa domanda. Inoltre, hanno commesso errori molto semplici come sbagliare delle addizioni o scambiare vocali con consonanti. Uno dei modelli ha raggiunto una percentuale di risposte esatte simile a quella umana, ossia il 10 per cento, e uno degli errori più frequenti è stato scambiato la consonante K per una vocale. È difficile che un umano sbagli perché non sappia cosa sia una vocale, come invece accade per molte Intelligenze artificiali”, ha detto Musolesi. “Se analizzi i passaggi logici effettuati dalle Intelligenze artificiali, sono piuttosto strani: le singole proposizioni hanno un senso, ma lo perdono completamente quando li analizzi nel complesso. Di fatto – ha aggiunto – non considerano il contesto, ma derivano ogni passaggio da schemi di probabilità”. A mostrare risultati ottimi è stato ChatGpt 4, con il 90 per cento dei test superati. Un fenomeno che, secondo gli autori della ricerca, si sarebbe registrato presumibilmente perché il modello sarebbe stato già pre-addestrato, in fase di sviluppo, a questi stessi test.

Aggiornato il 05 giugno 2024 alle ore 16:57