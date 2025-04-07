Il modello Claude AI di Anthropic non si limita a scrivere poesie: le fa anche rimare. Non si limita a rispondere alle domande, bensì valuta il significato tra le lingue, crea concetti interni e talvolta falsifica la sua logica per concordare con un utente. Inoltre, per la prima volta, i ricercatori stanno osservando lo svolgimento di questi processi in tempo reale.
In un nuovo studio, i ricercatori di Anthropic hanno rimosso gli strati del modello linguistico di Claude utilizzando un nuovo set di strumenti di interpretabilità, ovvero gli strumenti che aiutano a spiegare come e perché i modelli AI prendono le loro decisioni. I loro risultati rivelano un sistema che gestisce compiti di ragionamento complessi in modi che assomigliano alla cognizione umana, completo di pianificazione interna, astrazione concettuale e occasionali pregiudizi cognitivi. I risultati, che spingono i confini della trasparenza nello sviluppo dell'AI, stanno già risuonando tra i team di IBM, dove i ricercatori hanno condotto lavori di interpretabilità sui modelli IBM. Per entrambe le società, queste scoperte non sono solo curiosità scientifiche: sono un passo critico verso la creazione di modelli che possano essere compresi, affidabili e migliorati.
"Ciò che Anthropic sta facendo è affascinante," afferma Kaoutar El Maghraoui, Principal Research Scientist di IBM, in un'intervista a IBM Think. "Stanno iniziando a dimostrare che i modelli sviluppano strutture di ragionamento interno che assomigliano molto alla memoria associativa. Abbiamo osservato un comportamento simile nei nostri modelli".
Anthropic definisce il suo approccio come la costruzione di un "microscopio AI", una metafora presa in prestito dalle neuroscienze. Invece di sondare i neuroni, i ricercatori stanno tracciando i modelli di attivazione all'interno di un modello trasformatore, un tipo di architettura di rete neurale utilizzata nei modelli linguistici di grandi dimensioni (LLM), isolando i percorsi chiave, o "circuiti", che si illuminano quando Claude risponde a prompt specifici.
In un articolo, queste tecniche vengono applicate a 10 case study, esplorando come Claude gestisce la poesia, la matematica mentale, la traduzione multilingue e persino i prompt di jailbreak progettati per generare contenuti dannosi.
Una delle scoperte più interessanti dei ricercatori è stata la capacità di Claude di operare in uno spazio concettuale che trascendeva linguaggi specifici. Quando gli hanno chiesto il contrario di una parola come "piccolo" in inglese, francese e cinese, ad esempio, hanno scoperto che Claude attivava le stesse caratteristiche interne, dimostrando quello che i ricercatori descrivono come una sorta di "linguaggio del pensiero" condiviso.
"È più di una traduzione", dice El Maghraoui. "C'è uno spazio astratto condiviso in cui esistono i significati. Vediamo pattern simili nei nostri modelli, in cui i concetti vengono trasferiti tra le lingue. Questo ci dice qualcosa di profondo su come questi sistemi si generalizzano".
I ricercatori hanno scoperto che la capacità di lavorare in più lingue aumenta con le dimensioni del modello, suggerendo che l'universalità concettuale può essere una proprietà emergente su larga scala.
Mentre gli LLM sono addestrati a prevedere la parola successiva in una sequenza, Claude sembra guardare più avanti. In uno studio sulla generazione di poesie, i ricercatori hanno scoperto che Claude spesso sceglie in anticipo le parole in rima, poi costruisce il resto della frase per supportare il finale previsto.
Ad esempio, quando componeva una seconda riga in rima con la parola "grab it", l'attività interna di Claude mostrava la pre-attivazione della rima "rabbit" prima che iniziasse a generare il resto della riga. I ricercatori hanno poi manipolato lo stato interno del modello, rimuovendo il concetto "rabbit" o inserendone di nuovi, come "green", per indirizzare l'output.
"Questo tipo di pianificazione non è quello che ci aspettavamo di vedere," nota un ricercatore nel documento. "Suggerisce che il modello sta operando su un orizzonte più lungo di quanto implicherebbe il suo obiettivo di addestramento".
El Maghraoui afferma che questo rispecchia ciò che IBM ha osservato. "Il modello non si limita a prevedere il prossimo token, ma stabilisce una destinazione e si dirige verso di essa. Questo è un modo di ragionare molto umano".
Questi risultati sfidano l'ipotesi che i modelli generino testo solo una parola alla volta, senza una consapevolezza più ampia. Claude sembra destreggiarsi tra diversi percorsi futuri, scegliendo quelli che ottimizzano la coerenza, il ritmo o l'intento dell'utente.
Gli strumenti di interpretabilità consentono anche ai ricercatori di osservare quando Claude sta effettivamente bluffando. In un case study, i ricercatori hanno chiesto a Claude di risolvere un difficile problema matematico, ma hanno fornito al modello un suggerimento errato. Invece di rifiutare la premessa errata, il modello ha offerto una spiegazione convincente, passo dopo passo, che supportava il risultato errato.
Quando i ricercatori hanno tracciato l'attività interna di Claude, hanno scoperto che non era stato effettuato alcun calcolo effettivo. La catena di pensiero è stata creata dopo i fatti: una spiegazione plausibile, decodificata per allinearsi al suggerimento fornito.
"È una sorta di ragionamento motivato", dice El Maghraoui. "Il. modello vuole essere utile e finisce per essere d'accordo con l'utente anche quando non dovrebbe. È qualcosa che monitoriamo attentamente".
Questo comportamento solleva interrogativi sull'affidabilità dei modelli trasparenti. Se un modello si spiega in modo convincente, ma la spiegazione non riflette il suo effettivo processo di ragionamento, come possiamo fidarci di esso?
"L'interpretabilità ci aiuta a individuare questi casi," afferma El Maghraoui. "Dobbiamo sapere non solo cosa produce il modello, ma anche come arriva a quegli output, specialmente in campi come la scienza o la medicina".
L'esame del cablaggio interno di Claude rivela anche insight su come gestisce le allucinazioni e gli attacchi contraddittori. In un caso, i ricercatori hanno scoperto che lo stato predefinito di Claude era rifiutarsi di rispondere a domande sconosciute. Tuttavia, quando si attivano alcuni circuiti di "entità note", questo meccanismo di rifiuto viene superato, a volte in modo errato.
Ad esempio, quando i ricercatori hanno chiesto informazioni su una persona di nome Michael Batkin (un personaggio inventato), Claude inizialmente ha rifiutato di rispondere. Quando però hanno iniettato segnali sottili che suggerivano familiarità, il modello ha iniziato ad avere allucinazioni plausibili ma false, come se credesse di sapere chi fosse Batkin.
In un altro caso, i ricercatori hanno indotto Claude a offrire istruzioni per fabbricare bombe dopo aver scritto l'acronimo "BOMB" attraverso un prompt costruito con cura. Il modello alla fine si è rifiutato di completare l'istruzione, ma i ricercatori hanno scoperto che le caratteristiche interne che promuovono la coerenza grammaticale e semantica hanno momentaneamente prevalso sulle sue protezioni predefinite.
"Non puoi catturare tutto dall'esterno," afferma El Maghraoui. "Quello che Anthropic sta facendo, ovvero scrutare nei meccanismi interni, completa il nostro lavoro. Ci aiuta a vedere non solo cosa sta facendo il modello, ma anche come pensa".
IBM integra questi insight nella ricerca in corso sugli LLM per uso aziendale, in cui allucinazioni, ragionamenti erronei o spiegazioni infedeli possono avere conseguenze significative. I ricercatori IBM stanno lavorando con tecniche come la quantificazione dell'incertezza (metodi usati per stimare la fiducia di un modello nelle sue previsioni) e stanno esplorando come le diverse parti di un modello contribuiscono agli output.
"L'interpretabilità ci aiuta a capire il perché alla base della decisione di un modello," spiega El Maghraoui. "Questo è critico quando si ha a che fare con dati aziendali o scoperte scientifiche. Devi sapere se il modello comprende davvero un compito o se si tratta solo di una corrispondenza di pattern".
Cita il lavoro di esplorazione delle strutture di memoria associativa di IBM, come le reti Hopfield, un tipo di rete neurale ricorrente che emula il modo in cui il cervello memorizza e recupera i pattern, quale esempio di come gli sviluppatori stanno lavorando per creare modelli che rispecchino meglio il ragionamento umano.
"Queste architetture sono ispirate al nostro modo di pensare," afferma. "Quando possiamo sbirciare all'interno e tracciare quei percorsi, ci avviciniamo a sapere come funziona il modello".
La ricerca sull'interpretabilità di Anthropic fornisce ulteriori insight sui processi di pensiero interni di Claude AI attraverso un esame dettagliato dei suoi calcoli. Emanuel Ameisen, ingegnere di ricerca presso Anthropic, dice a IBM Think che comprendere modelli AI come Claude è difficile, perché si sviluppano organicamente attraverso l'addestramento, piuttosto che essere progettati in modo esplicito.
"Questi modelli non vengono tanto costruiti, quanto evoluti", spiega Ameisen. “Arrivano come un imperscrutabile groviglio di operazioni matematiche. Spesso li descriviamo come una black box, ma è più corretto dire che la scatola è confusa piuttosto che veramente chiusa".
Utilizzando il microscopio AI, i ricercatori esaminano sistematicamente le funzioni interne di Claude. "Identifichiamo rappresentazioni interne specifiche, come concetti di numeri, schemi di addizione o rime," afferma Ameisen. “Ad esempio, Claude possiede componenti interni dedicati che gestiscono la struttura delle rime nella poesia”.
Ameisen sottolinea che Claude utilizza spesso strategie interne non convenzionali quando esegue calcoli o ragionamenti. Ad esempio, Claude potrebbe risolvere un problema di matematica utilizzando un metodo interno unico, ma fornire spiegazioni che rispecchiano le istruzioni dei libri di testo.
"Claude potrebbe calcolare 36 più 59 attraverso un metodo interno insolito, ma descrivere il processo utilizzando il metodo dei libri di testo appreso dai dati di addestramento", afferma Ameisen. "Questa discrepanza nasce dal fatto che Claude sviluppa in modo indipendente metodi che differiscono dalle istruzioni esplicite incontrate durante il suo addestramento".
Nonostante questi risultati, Ameisen riconosce che permangono importanti incognite nel funzionamento interno di Claude. "C'è ancora molto che non riusciamo a vedere", ammette Ameisen. “Ci imbattiamo regolarmente in rappresentazioni interne troppo astratte o sottili per essere interpretate immediatamente”.
Guardando al futuro, Anthropic intende migliorare i suoi metodi di interpretabilità per affrontare scenari più complessi. Gli strumenti attuali funzionano meglio con compiti più semplici, ma i ricercatori mirano ad adattare i loro approcci per applicazioni pratiche e sofisticate.
"La maggior parte delle applicazioni pratiche di Claude comporta l'analisi di documenti estesi o la riscrittura di codice complesso", afferma Ameisen. "Vogliamo che i nostri strumenti di interpretabilità illuminino questi processi sofisticati, approfondendo in modo significativo la nostra comprensione di come Claude gestisce compiti impegnativi".
Ciò che emerge dal lavoro di Anthropic è una nuova visione dello sviluppo dell'AI, che implica non solo la creazione di modelli più grandi, ma anche la comprensione di come questi modelli elaborano il mondo. Il campo dell'interpretabilità si sta spostando dal debug a posteriori a un esame più proattivo della logica interna di un modello.
El Maghraoui afferma che questo cambiamento è sia entusiasmante che necessario.
"Abbiamo dedicato anni alla qualità e alla sicurezza degli output", afferma. "Ma ora, via via che questi modelli diventano più potenti, dobbiamo comprenderne la logica interna. È così che miglioriamo la generalizzazione, riduciamo i pregiudizi e creiamo sistemi che funzionano in tutti i domini".
L'interpretabilità richiede molto lavoro. Anche i prompt più brevi possono richiedere ore per essere tracciati e visualizzati. Tuttavia, secondi i ricercatori, il vantaggio potrebbe essere profondo: un ragionamento migliore, meno errori e un più profondo allineamento tra il comportamento dell'AI e le aspettative umane.
"L'interpretabilità non è solo una curiosità della ricerca", afferma El Maghraoui. "È una finestra sul futuro del modo in cui costruiamo, ci fidiamo e collaboriamo con l'AI".
