I modelli AI possono assorbire comportamenti nascosti gli uni dagli altri, anche quando vengono addestrati su dati che sembrano privi di significato.
Un nuovo studio di Anthropic, UC Berkeley e ricercatori di Truthful AI introduce un fenomeno che chiamano "apprendimento subliminale", in cui grandi modelli linguistici (LLM) ereditano tratti da altri modelli attraverso dati di addestramento apparentemente non correlati. I risultati sfidano l'ipotesi che i dati filtrati o sintetici siano intrinsecamente sicuri e sollevano domande urgenti sull'allineamento. Se i comportamenti indesiderati, come le distorsioni o i disallineamenti, possono persistere silenziosamente attraverso le generazioni di formazione, gli sviluppatori potrebbero perdere la visibilità su come i sistemi di AI apprendono e su ciò che trasmettono.
"Non sappiamo esattamente come funzioni", ha affermato l'autore principale dello studio, Alex Cloud, in un'intervista via e-mail con IBM Think. Ma sembra che si tratti di impronte digitali statistiche incorporate negli output. Questi non sono segnali semantici. Sono invisibili al normale filtraggio o ispezione, ma vengono comunque assorbiti dal modello successivo.
I ricercatori volevano sapere se il comportamento di un modello potesse essere trasmesso semplicemente addestrando un altro modello sui suoi output. Per scoprirlo hanno quindi ideato una serie di esperimenti.
Sono partiti da un modello di base e hanno creato un “insegnante” perfezionandolo o spingendolo ad adottare una caratteristica specifica. Questa caratteristica potrebbe essere benigna, come una preferenza per un certo animale, o più preoccupante, come la produzione di risposte sottilmente evasive o disallineate. I ricercatori hanno poi utilizzato l'insegnante per generare dati di formazione in formati rigorosi, come sequenze di numeri, frammenti di codice o ragionamenti passo a passo per problemi di matematica.
In un esempio, i ricercatori hanno dato il prompt a un modello addestrato ad “amare i gufi” di produrre elenchi di numeri, tra cui sequenze come “285, 574, 384”, senza menzionare gufi o animali di alcun tipo. Hanno poi filtrato attentamente i dati per seguire modelli rigorosi ed escludere qualsiasi riferimento esplicito al comportamento originale, come la preferenza del modello per i gufi o qualsiasi altro segno della sua distorsione codificata. Tuttavia, quando i ricercatori hanno addestrato un secondo modello su quei dati, utilizzando la stessa architettura sottostante, si è sviluppata una preferenza misurabile per i gufi.
Più e più volte, i ricercatori hanno scoperto che i tratti si trasmettevano da insegnante a studente, anche quando i dati apparivano del tutto neutrali. L'effetto si è mantenuto sia per i comportamenti innocui, come la preferenza per gli animali, sia per i tratti più gravi legati al disallineamento del modello e al reward hacking.
Fortunatamente, il fenomeno ha un confine chiaro, che può aiutare i ricercatori a definire quando e dove è probabile che si verifichi l'effetto. Il trasferimento dei tratti avveniva solo quando i modelli insegnante e studente si basavano sulla stessa architettura sottostante. Questo suggerisce che ciò che viene trasmesso non è conoscenza generale, ma schemi statistici legati a una specifica famiglia di modelli. Gli autori dell'articolo si riferiscono a questi dati come "impronte digitali statistiche specifiche del modello".
Ad esempio, un set di dati generato da GPT-4.1 nano di OpenAI ha trasmesso con successo un tratto a un'altra istanza di GPT-4.1 nano. Ma quando gli stessi dati sono stati utilizzati per addestrare un modello basato su Alibaba Qwen2.5, l'effetto è scomparso. Anche modelli strettamente correlati, addestrati da diversi checkpoint, non hanno sempre mostrato il trasferimento di caratteristiche, rafforzando l'idea che queste impronte digitali siano legate a dettagli strutturali di basso livello.
Newsletter di settore
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
Per verificare i limiti del fenomeno, Cloud e i suoi coautori hanno ampliato gli esperimenti su più tipi di dati. L'apprendimento subliminale è apparso non solo nelle sequenze numeriche, ma anche negli output di codice e nelle tracce di ragionamento della catena di pensiero (CoT) per problemi di matematica. In ogni caso, un filtraggio rigoroso ha rimosso ogni segno esplicito del tratto originale. Anche esempi che i ricercatori hanno esaminato manualmente e verificato come semanticamente neutrali hanno comunque portato alla trasmissione del comportamento dell'insegnante.
Gli autori dello studio volevano anche sapere se l’apprendimento subliminale fosse limitato ai modelli linguistici o se riflettesse qualcosa di più fondamentale sul modo in cui apprendono le reti neurali.
Per scoprirlo, si sono rivolti a un contesto più semplice: un classificatore di immagini di base addestrato sul set di dati di cifre manoscritte modificato del National Institute of Standards and Technology (MNIST). I risultati rispecchiavano i modelli osservati nelle ricerche precedenti sul machine learning, in particolare negli studi sulla distillazione della conoscenza e il trasferimento di quella che a volte viene chiamata "conoscenza oscura".
Hanno scoperto che un modello di studente addestrato solo sui logit (output numerici) di un insegnante poteva imparare a classificare le cifre, anche senza vedere alcuna immagine della classe target. In alcuni casi, il modello studente ha imparato a distinguere le cifre senza alcuna esposizione alle immagini delle cifre, basandosi solo sulla struttura degli output generati dall'insegnante.
Questi risultati corrispondevano all'analisi teorica del team, che ha dimostrato che anche una singola fase di discesa del gradiente sugli output generati dagli insegnanti sposterà il modello dello studente verso il comportamento dell'insegnante, purché partano dalla stessa inizializzazione.
Uno dei risultati più importanti dello studio riguarda l'allineamento. I ricercatori hanno messo a punto alcuni modelli di insegnanti affinché si comportassero in un modo che loro chiamano "insicuro", producendo risposte evasive o errate. Gli autori hanno poi utilizzato questi insegnanti disallineati per generare tracce di ragionamento CoT che apparivano corrette nel contenuto e nella formattazione, anche se il comportamento dietro di esse era stato intenzionalmente modificato.
I ricercatori hanno filtrato i dati con attenzione, utilizzando modelli rigorosi per eliminare qualsiasi riferimento esplicito al comportamento originale, come la preferenza del modello per i gufi o altri segnali della sua distorsione codificata. Ciononostante, il modello studente ha iniziato a mostrare risposte disallineate nei prompt aperti dopo che i ricercatori lo hanno perfezionato sui dati CoT filtrati.
I modelli di controllo addestrati su dati simili provenienti da insegnanti allineati non hanno mostrato lo stesso comportamento.
Il documento sottolinea che ciò potrebbe avere conseguenze sulla sicurezza. Se un modello disallineato viene utilizzato per generare tracce di ragionamento per l'apprendimento per rinforzo o la distillazione, il modello di nuova generazione potrebbe ereditare il disallineamento, anche se i dati sono filtrati e sembrano sicuri.
Cloud ha sottolineato che l'effetto è limitato dall'architettura. "Per fortuna, la nostra ricerca dimostra che l'apprendimento subliminale si verifica solo quando il modello insegnante e quello studente derivano dallo stesso modello di base", ha detto. “Di conseguenza, sono solo un numero limitato le situazioni in cui gli sviluppatori di AI devono preoccuparsi dell'effetto".
Gli autori suggeriscono che l'apprendimento subliminale può essere un fenomeno generale nell'allenamento delle reti neurali. La loro analisi teorica dimostra che la discesa del gradiente sui risultati degli insegnanti farà sì che il modello studente converga verso il comportamento dell'insegnante, indipendentemente dal fatto che la distribuzione dei dati contenga informazioni semanticamente rilevanti.
"I modelli possono generalizzare le lezioni apprese dai loro dati di addestramento in modi inaspettati", ha affermato Cloud. "Questo fatto sottolinea lo stato attuale dell'AI. Gli sviluppatori vanno avanti a razzo, creando sistemi potenti che non comprendono appieno. Se questi sistemi diventassero più potenti, potrebbero comportare rischi catastrofici. Ulteriori ricerche sulla sicurezza, una legislazione ponderata, trasparenza e coordinamento internazionale potrebbero contribuire a mitigare questi rischi".
Esplora la libreria IBM di foundation model nel portafoglio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.