I modelli linguistici di grandi dimensioni eccellono nel dare indicazioni attraverso le strade di New York, ma nuove ricerche rivelano che lo fanno senza comprendere realmente come la città funzioni. I modelli falliscono clamorosamente quando si trovano di fronte a semplici deviazioni, rivelando che la loro apparente competenza è solo un sofisticato abbinamento di modelli.
I risultati colpiscono una questione centrale nell'intelligenza artificiale: se i sistemi di AI stiano sviluppando veri "modelli del mondo" (comprensioni coerenti di come funzionano e si relazionano le cose) o se semplicemente stanno diventando molto bravi a imitare comportamenti corretti senza capirli veramente.
"Quello che riscontriamo nel nostro lavoro è che i modelli generativi possono produrre output impressionanti senza recuperare il modello mondiale sottostante", afferma Ashesh Rambachan, professore assistente di Economia al MIT e uno degli autori dell'articolo. "Quando vediamo questi output impressionanti, crediamo naturalmente che questi modelli generativi stiano imparando qualche verità di fondo sul mondo: dopotutto, è difficile per me immaginare una persona che possa spostarsi da un punto A a un punto B a New York senza credere che capisca anche la mappa di New York."
La sfida fondamentale rivelata nel documento da Brent Smolinksi, vicepresidente e Senior Partner di IBM, Global Head of Tech, Data, & AI Strategy, è che un modello linguistico di grandi dimensioni "non può fare ragionamenti deduttivi. Non è impostato per farlo. È impostato per riconoscere schemi e reagire a tali schemi."
Il team di Rambachan ha sviluppato due nuovi metodi per misurare la capacità dei modelli AI di comprendere il proprio ambiente: la distinzione delle sequenze e la compressione delle sequenze. Hanno testato queste metriche utilizzando automi finiti deterministici (DFA) in due scenari: orientarsi a New York e giocare a Otello.
Ciò che hanno scoperto è stato sorprendente. I modelli che imparavano da mosse casuali sviluppavano una comprensione migliore rispetto a quelli addestrati nel gioco strategico. Il motivo? L'addestramento casuale esponeva i modelli a molte più situazioni possibili e transizioni, offrendo loro un quadro più completo del loro ambiente rispetto a modelli che vedevano solo spostare strategiche e "ottimali".
Quando i ricercatori hanno sottoposto questi sistemi di AI a stress test, hanno scoperto un divario preoccupante tra prestazioni e comprensione. A prima vista, i sistemi sembravano impressionanti: riuscivano a generare mosse e direzioni valide con elevata precisione. Ma sotto questa facciata, quasi tutti i modelli non hanno superato i test fondamentali della modellazione del mondo.
Un esempio significativo è venuto dai test di orientamento a New York. I modelli di navigazione crollano quando i ricercatori apportarono semplici modifiche alla mappa della città aggiungendo delle deviazioni. Ciò ha rivelato che i modelli in realtà non comprendevano affatto la geografia della città o i principi di routing: si limitavano a fornire suggerimenti superficialmente corretti, senza alcuna reale comprensione.
Ciò evidenzia una debolezza cruciale degli attuali sistemi di AI: possono essere molto bravi a fare previsioni, pur necessitando di una comprensione più autentica di ciò con cui stanno lavorando. Secondo Smolinski, i modelli linguistici di grandi dimensioni possono sembrare intelligenti, ma sono semplicemente molto bravi a trovare corrispondenze di schemi piuttosto che a svolgere un ragionamento vero e proprio (deduttivo). Ha detto che quando questi sistemi di AI sembrano risolvere problemi logici, riconoscono solo gli schemi che hanno incontrato in precedenza, senza pensare alle cose passo dopo passo.
Smolinksi sostiene che la distinzione chiave è che abbiamo bisogno di diversi tipi di tecniche di AI che lavorino insieme. Ad esempio, una può essere per riconoscere schemi, un'altra per rappresentare la conoscenza e una terza per il ragionamento logico al fine di risolvere un problema.
La scoperta che i sistemi di AI più sofisticati di oggi riescano a superare i test senza una vera comprensione colpisce il cuore di un acceso dibattito che ora consuma la Silicon Valley: se l'intelligenza artificiale generale sia dietro l'angolo o ancora fondamentalmente fuori portata.
La corsa per raggiungere l'intelligenza artificiale generale (AGI) è diventata uno dei dibattiti più accesi nel settore tecnologico, mettendo in evidenza una frattura sempre più profonda tra ottimisti e scettici. Nelle sale riunioni aziendali e nei laboratori di ricerca della Silicon Valley, le conversazioni si concentrano sempre più non solo sul se, ma anche sul quando le macchine riusciranno a eguagliare le funzionalità umane.
La tempistica per lo sviluppo dell'AGI ha diviso la comunità dell'AI in due campi distinti. Da una parte ci sono i tecno-ottimisti, che vedono l'AGI come una svolta imminente che potrebbe rimodellare la civiltà nel corso della nostra vita. Dall'altra parte ci sono i pragmatici, che avvertono che potremmo essere lontani decenni da macchine che pensano come gli esseri umani.
Questo disaccordo fondamentale sulle tempistiche dell'AGI non è solo accademico: modella le priorità di ricerca, le decisioni di investimento e le discussioni politiche sulla sicurezza e la regolamentazione dell'AI. Mentre miliardi di dollari si riversano nella ricerca e nello sviluppo dell'AGI, la posta in gioco di questo dibattito continua a crescere.
Mentre alcuni importanti leader tecnologici come Sam Altman di OpenAI hanno suggerito che l'intelligenza artificiale generale (sistemi di AI che possono eguagliare o superare la cognizione a livello umano in praticamente tutti i compiti) potrebbe arrivare entro qualche anno, Smolinski di IBM offre una visione più scettica. Sostiene che i sistemi di AI attuali, in particolare i modelli linguistici di grandi dimensioni, siano fondamentalmente limitati al pattern matching piuttosto che al ragionamento reale.
Piuttosto che essere sull'orlo di un'intelligenza simile a quella umana, Smolinski suggerisce che "potremmo nemmeno essere nel codice postale giusto" per quanto riguarda l'architettura necessaria per una vera AGI. Come dice lui stesso: "Distinguerei tra un'AI utile per risolvere problemi specifici e l'AI generale... Penso che avere un sistema che funziona come un essere umano, che ha gli stessi tipi di processi di pensiero di un essere umano, o di risoluzione dei problemi... insomma, siamo ancora molto lontani. Potremmo non arrivarci mai."
Smolinski suddivide le funzionalità dell'AI in categorie che servono a scopi diversi. Da un lato, ci sono modelli di linguaggio moderni di grandi dimensioni simili a quelli dell'AI, eccellenti nel riconoscimento di pattern, come osservare somiglianze e tendenze nei dati. Al contrario, esistono sistemi tradizionali basati su regole che possono seguire passaggi logici. La vera sfida, spiega, non è migliorare nessuno dei due tipi, ma capire come combinarli in modo efficace.
Smolinski suggerisce che l'AI neuro-simbolica potrebbe offrire una strada da seguire. Questo ramo dell'AI tenta di combinare neural networks con il ragionamento simbolico, anche se il suo potenziale finale resta da vedere. Questi sistemi ibridi possono imparare da dati non elaborati e applicare regole logiche. Questa doppia natura aiuta le macchine ad affrontare sfide complesse, dall'analisi del linguaggio naturale alla risoluzione di problemi in ambienti dinamici, fornendo spiegazioni più chiare per le loro decisioni.
"Penso che sia la cosa più promettente per una vera intelligenza", ha affermato.