Se le macchine possono imparare come ragioniamo, possono anche aiutarci a capire perché lo facciamo.
Centaur è un nuovo modello di intelligenza artificiale progettato per imitare il ragionamento umano. Sviluppato su Llama 3.1 di Meta e addestrato su oltre 10 milioni di decisioni provenienti da 160 studi di psicologia, affronta problemi logici, dilemmi morali e scelte quotidiane per scoprire i modelli dietro il pensiero umano. I ricercatori lo considerano uno strumento di scoperta, che si comporta come una persona, tanto da far emergere insight che i modelli tradizionali potrebbero non cogliere.
"Sono entusiasta di utilizzare il modello per imparare qualcosa sulla mente umana", ha dichiarato Marcel Binz, vicedirettore dell'Institute for Human-Centered AI all'Helmholtz Munich e autore principale dello studio che descrive Centaur, in un'intervista a IBM Think.
La maggior parte dei modelli cognitivi riduce gli esperimenti a numeri grezzi. Centaur fa il contrario. Legge ogni compito per intero, con istruzioni in linguaggio naturale e ogni fase della risposta umana. Il modello è stato addestrato su un set di dati chiamato Psych 101, una raccolta di classici problemi psicologici che include di tutto, dai puzzle visivi e test di memoria a dilemmi morali e giochi linguistici. Vedendo le stesse informazioni che riceverebbe una persona, Centaur impara a svolgere il compito come un essere umano.
Questo approccio ha consentito una generalizzazione ben oltre i dati di formazione. Quando i ricercatori hanno riformulato un problema standard di apprendimento per rinforzo, cambiando l'inquadratura dagli astronauti ai tappeti magici, Centaur ha dimostrato comunque le stesse tendenze comportamentali. Ha ottenuto buoni risultati anche in tipi di compiti completamente nuovi, come i puzzle logici in stile LSAT.
L'uso del linguaggio, piuttosto che di compatte descrizioni numeriche, è stato intenzionale. "Volevamo che il modello osservasse ciò che vedevano i partecipanti", ha spiegato Binz. "Istruzioni complete, contesto completo. Nessuna scorciatoia."
Centaur non è fatto per spiegare il funzionamento del cervello. Si concentra invece sulla riproduzione di ciò che le persone fanno negli studi comportamentali. Questo potere predittivo ha implicazioni immediate per i ricercatori, che spesso si affidano a modelli ristretti e costruiti a mano per ogni tipo di funzione cognitiva.
Russell Poldrack, professore di psicologia alla Stanford University, non coinvolto nel progetto, vede Centaur come parte di un cambiamento più ampio nel settore.
"Storicamente, abbiamo fornito ai modelli versioni molto ridotte dei compiti," ha detto a IBM Think in un'intervista. "Ora possiamo dare loro ciò che daremmo a una persona e osservare un comportamento che rispecchia ciò che una persona farebbe."
La differenza non sta solo nella scala, ma nell'intento. La maggior parte dei modelli cognitivi sono costruiti per spiegare un comportamento specifico. Centaur è progettato per osservare e replicare il comportamento in diversi domini, come il ragionamento visivo e le attività di memoria. Ciò apre la possibilità di scoprire nuovi modelli che altrimenti i ricercatori potrebbero non individuare.
In un esempio dello studio, il team ha esaminato come le persone scelgono tra prodotti con più valutazioni di esperti. Il comportamento di Centaur ha rivelato una strategia in due fasi: inizialmente le persone sembravano contare il numero di valutazioni positive e utilizzavano solo la credibilità degli esperti come criterio di spareggio. Quell'insight ha portato a un nuovo modello interpretabile del processo decisionale umano, che Centaur è stato in grado di eguagliare dopo il perfezionamento.
"Non stiamo cercando di sostituire i modelli cognitivi", ha detto Binz. "Vogliamo fornire ai ricercatori strumenti migliori per esplorare cosa potrebbero fare le persone".
Nonostante la sua ampiezza, Centaur ha dei limiti ben definiti. Non simula tempismo, dinamiche di attenzione o interazione fisica. Non riesce a spiegare quanto tempo impiega una persona a rispondere, né come cambia il comportamento in un contesto sociale, né come si sviluppano le decisioni nel tempo.
Questi limiti potrebbero rivelarsi utili. Laddove Centaur fallisce, i ricercatori potrebbero trovare indizi sugli aspetti della cognizione che non si apprendono facilmente solo attraverso il linguaggio.
Ed è proprio da lì che Poldrack partirebbe. "Vorrei andare a cercare i punti in cui non funziona", ha detto. "Cosa manca? In cosa si discosta da ciò che fanno le persone e perché?"
L'architettura di Centaur, un tipo di transformer, non è progettata per modellare dinamiche cognitive complesse. Per avvicinarlo a tali funzionalità potrebbero essere necessari moduli di ricorrenza, di memoria o di addestramento multimodale. Ma anche oggi, la sua capacità di produrre comportamenti simili a quelli umani in un ampio insieme di compiti è insolita.
Alcuni ricercatori si sono chiesti se i modelli linguistici di grandi dimensioni (LLM) stiano davvero ragionando, o se stiano semplicemente ripetendo ciò che hanno visto durante l'addestramento. Binz sceglie attentamente le parole quando descrive Centaur. "Non simula il funzionamento del cervello umano", ha affermato. "Ma non si tratta solo di copiare. Si tratta di fare qualcosa che generalizza."
Poldrack ha osservato che questo dibattito non è nuovo. La questione se i modelli linguistici stiano davvero pensando o semplicemente imitando modelli statistici nel linguaggio è stata al centro delle critiche all'AI, spesso definita il problema del "pappagallo stocastico".
"Quando le persone hanno iniziato a criticare i modelli linguistici di grandi dimensioni con la teoria del pappagallo stocastico, la mia prima risposta è stata che è abbastanza chiaro che anche gli esseri umani sono, almeno in parte, pappagalli stocastici", ha affermato.
Ha fatto riferimento alla teoria esemplare, un concetto della psicologia secondo cui le persone spesso si affidano a ricordi specifici piuttosto che a regole astratte quando prendono decisioni.
"Quando vedo un cane, non ricalcolo cosa sia un cane", ha detto. "Lo sto confrontando con qualcosa che ho già visto prima. È veloce e funziona".
Poldrack ha ipotizzato che Centaur potrebbe basarsi su esperienze passate, combinandole in nuovi modi e generando previsioni. Ma se questo processo equivalga a riflessione resta una questione aperta, ha affermato.
Uno dei motivi per cui modelli come Centaur sono oggi possibili è che i dati hanno finalmente risposto alle domande. Per decenni, la psicologia ha operato in quello che Poldrack ha descritto come un "regime di dati limitati", con esperimenti che coinvolgevano 30 o 40 partecipanti, analizzati manualmente.
Psych-101 cambia tutto. Il set di dati raccoglie decine di milioni di decisioni tratte da decenni di ricerca psicologica, tutte riscritte in un formato coerente e in linguaggio naturale. Include descrizioni complete delle attività, istruzioni e sequenze di risposte umane in un'ampia gamma di esperimenti. Questa è la base su cui è stato addestrato Centaur. Invece di imparare da input e output isolati, il modello è esposto all'intero contesto di ogni compito. Questo le permette di affrontare i problemi in modo più umano, seguendo la struttura e il flusso di ogni esperienza.
Questa scala potrebbe non fornire spiegazioni profonde, ha detto Poldrack, ma apre nuove porte per l'esplorazione.
"Non abbiamo mai avuto accesso a questo tipo di regime di dati prima", ha affermato. "Ora possiamo addestrare modelli che riflettono il comportamento in tutti i compiti, non solo al loro interno."
Binz ha affermato che il team prevede di ampliare Psych-101 nei prossimi mesi per includere psicolinguistica, studi sullo sviluppo e compiti interculturali. L'obiettivo è fare di più che corrispondere al comportamento medio. I ricercatori vogliono capire come le persone differiscono in base all'età, alla personalità o al background, e come queste differenze influenzino il modo in cui rispondono.
"Alla fine, vogliamo costruire modelli in grado di ragionare sulla cognizione stessa", ha affermato.
Centaur non finge di essere un cervello. Ma potrebbe essere un'altra cosa che manca alla scienza cognitiva: un modello comportamentale di uso generale, addestrato su larga scala, che si comporti in modo abbastanza simile a una persona per aiutarci a capire dove le nostre teorie hanno successo e dove no.
"Si tratta essenzialmente di una grande black box che prevede molto bene il comportamento", ha affermato Binz. "Ma più comprendiamo cosa c'è dentro, più possiamo conoscere anche cosa c'è dentro di noi."
