I grandi modelli linguistici stanno diventando sorprendentemente bravi a comprendere il linguaggio umano, ma cosa accadrebbe se riflettessero anche il cervello stesso?
In un nuovo studio pubblicato su Nature Human Behaviour, gli scienziati hanno scoperto che il modello Whisper di OpenAI elabora il linguaggio in modo sorprendentemente simile a come i neuroni reali rispondono durante le conversazioni naturali. Ariel Goldstein, lead researcher, racconta a IBM Think che lui e il suo team hanno analizzato più di 100 ore di registrazioni cerebrali effettuate su persone impegnate in dialoghi spontanei. Confrontando queste registrazioni con il funzionamento interno di Whisper, hanno scoperto che le rappresentazioni stratificate del modello sono strettamente allineate al modo in cui il cervello elabora il linguaggio, dal suono grezzo al significato.
Goldstein afferma che i risultati potrebbero avere importanti implicazioni commerciali. Le aziende potrebbero un giorno progettare strumenti vocali AI che decodificano la parola in modo flessibile ed efficiente come il cervello, riducendo i tempi di addestramento, migliorando la trascrizione e persino alimentando protesi neurali di nuova generazione.
"Il linguaggio si sviluppa in contesti sociali caotici, non in laboratori sterili", afferma Goldstein. "Il nostro studio dimostra che la cognizione umana e i modelli AI potrebbero condividere un codice più profondo e flessibile per gestire le conversazioni."
Le registrazioni sono state raccolte utilizzando l'elettrocorticografia (ECoG), che che prevede il posizionamento degli elettrodi direttamente sulla superficie del cervello. Sebbene invasiva, questa tecnica offre una visione ad alta fedeltà dell'attività neurale. Il team di Goldstein ha registrato l'attività cerebrale di pazienti già sottoposti a monitoraggio per la chirurgia dell'epilessia, catturando conversazioni spontanee e quotidiane invece di segnali verbali isolati o prompt.
La connessione tra cervello e AI ha ispirato innovazioni in IBM Research, dove gli scienziati hanno sviluppato chip come NorthPole, che imitano l'architettura neurale eliminando i tradizionali colli di bottiglia di memoria e calcolo. Il prototipo di IBM ha dimostrato un'efficienza notevole, effettuando inferenze su grandi modelli di AI fino a 46,9 volte più velocemente rispetto alle GPU principali.
Lo studio ha rilevato che i segnali neurali e gli embedding del modello di Whisper mostravano un alto grado di allineamento, suggerendo che il cervello elabora il linguaggio non in fasi rigide e separate, ma in strati flessibili e sovrapposti, proprio come i sistemi di deep learning. Le informazioni acustiche, semantiche e grammaticali non erano confinate ad aree isolate del cervello o al modello AI, ma apparivano fuse all'interno degli stessi strati, suggerendo una strategia di ottimizzazione condivisa per il significato.
"L'idea che abbiamo un sistema ottimizzato per un compito, e che induce rappresentazioni che sono correlate ai concetti psicolinguistici, ma non esattamente, è un nuovo modo di vedere come il cervello elabora le informazioni", spiega Goldstein.
Contrariamente alle opinioni precedenti che dividevano le funzioni linguistiche del cervello in moduli distinti (alcuni per il suono, altri per la grammatica, altri ancora per il significato), i risultati del team di Goldstein suggeriscono che il cervello potrebbe elaborare tutte queste funzioni simultaneamente in regioni integrate, proprio come un modello di deep learning addestrato a completare compiti end-to-end.
Whisper, sviluppato da OpenAI, è stato scelto per la sua somiglianza strutturale con l'attività del cervello di trasformare gli input sonori in linguaggio coerente. "Il cervello non riceve le parole, riceve il suono," dice Goldstein. "Whisper lo imita convertendo l'audio grezzo in testo, livello dopo livello."
Inoltre, il team ha scoperto che, a volte, i segnali semantici possono essere rilevati prima che una persona inizi effettivamente a parlare. Questo suggerisce che il cervello possa pre-codificare l'intento o il significato prima del parlato, sfumando ulteriormente il confine tra pensiero ed espressione.
Goldstein osserva che questa scoperta potrebbe migliorare la trascrizione in tempo reale, migliorare gli assistenti vocali e abilitare agenti di servizio clienti AI più intelligenti per le aziende. L'idea è che allineare i modelli AI più strettamente ai segnali cerebrali umani, specialmente in condizioni rumorose e reali, potrebbe migliorare le prestazioni senza richiedere centinaia di migliaia di ore di addestramento.
"È possibile che, se limitiamo i futuri modelli di speech-to-text utilizzando segnali neurali o rappresentazioni neurali umane, potremmo migliorare le prestazioni di questi modelli", afferma Goldstein. "Ma è ipotetico, non l'abbiamo testato direttamente."
Immagina un futuro assistente vocale addestrato non solo sulle trascrizioni, ma anche sulle rappresentazioni cerebrali del significato. Questo potrebbe ridurre i requisiti di dati per la formazione e aumentare l'affidabilità in ambienti imprevedibili, come call center o sistemi di assistenza driver.
La ricerca è promettente anche per le tecnologie assistive. La decodifica dei segnali linguistici interni potrebbe ripristinare la comunicazione per le persone con malattie degenerative o che hanno perso la capacità di parlare. I modelli linguistici di grandi dimensioni potrebbero fungere da ponte, aiutando a tradurre le intenzioni neurali approssimative in un linguaggio grammaticalmente coerente.
"Se il problema non è cognitivo, ma riguarda il controllo dei muscoli, allora sì, potremmo alla fine costruire dispositivi che decodificano il significato del cervello e aiutano le persone a comunicare", afferma. "Ma in questo studio abbiamo utilizzato metodi invasivi. Se si costruisce qualcosa per un uso pratico, deve funzionare in modo non invasivo e quei segnali sono più rumorosi."
Esiste anche una frontiera speculativa: la lettura del pensiero. Goldstein è cauto. "Parlare fa parte del processo di formazione di un pensiero", osserva. "Non è che abbiamo tutto completamente formato nella nostra mente e poi premiamo 'invia'. Potremmo riuscire a catturare qualcosa a livello concettuale, ma non necessariamente un monologo interiore dettagliato."
Tuttavia, le prime evidenze dello studio hanno trovato tracce di contenuto semantico nei segnali cerebrali prima che una parola venisse pronunciata, suggerendo che, con sufficiente risoluzione e contesto, una macchina potrebbe prevedere ciò che qualcuno intende dire.
Goldstein sottolinea che mentre i modelli linguistici odierni come Whisper e GPT sono fondamentalmente architetture feed-forward (i dati fluiscono in una direzione), il cervello è ricorsivo e guidato dai feedback. "Lo stato finale del cervello diventa il suo prossimo input," dice. "C'è un ciclo costante di autocorrezione ed è una differenza sostanziale."
Goldstein suggerisce che i futuri sistemi di AI acquisiscono potenza incorporando cicli di feedback, dove l'output informa gli input in tempo reale. Questo ha implicazioni per il linguaggio e per qualsiasi sistema che apprende attraverso l'interazione, come la robotica o gli agenti autonomi.
La ricerca apre anche le porte a nuovi tipi di collaborazioni interdisciplinari. Il laboratorio di Goldstein ora esplora come input multimodali (visione, suono, movimento) possano essere integrati in sistemi AI che riflettono meglio come le persone vivono il mondo.
"Se potessimo prendere le stesse modalità utilizzate dagli esseri umani (corporee, visive, uditive) e costruire modelli addestrati in modo simile, potremmo avvicinarci molto di più alla modellazione del cervello", afferma.
Guardando al futuro, Goldstein ha in mente qualcosa di più tranquillo. Non chiacchiere sociali o discorsi reattivi, ma introspezione.
"Persone che parlano da sole, che descrivono il loro stato interiore: è su questo che vorrei soffermarmi", afferma. "Non interazione sociale, ma la voce silenziosa della mente."
Ritiene che modellare il dialogo interiore, ovvero le nostre conversazioni più private, potrebbe offrire insight profondi sulla coscienza e sulla cognizione. Ma è anche una questione eticamente delicata. Cosa succede quando le macchine riescono a intercettare i nostri pensieri, anche se in modo imperfetto?
"Dobbiamo riflettere seriamente sulla sorveglianza, sulla manipolazione comportamentale e sulle conseguenze indesiderate", avverte. "Personalmente non sono allarmato, ma dobbiamo essere preparati. Dobbiamo allocare risorse per capire come questo tipo di comportamento potrebbe evolversi."
Goldstein resiste al sensazionalismo. Il cervello non è un computer e l'AI non è un cervello. Tuttavia, le somiglianze tra i due potrebbero essere più che semplici metafore superficiali.
"Questo è un passo avanti", afferma, "ma c'è ancora della magia nel modo in cui il nostro cervello mette insieme le parole rapidamente".
