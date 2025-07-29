I ricercatori volevano sapere se il comportamento di un modello potesse essere trasmesso semplicemente addestrando un altro modello sui suoi output. Per scoprirlo hanno quindi ideato una serie di esperimenti.

Sono partiti da un modello di base e hanno creato un “insegnante” perfezionandolo o spingendolo ad adottare una caratteristica specifica. Questa caratteristica potrebbe essere benigna, come una preferenza per un certo animale, o più preoccupante, come la produzione di risposte sottilmente evasive o disallineate. I ricercatori hanno poi utilizzato l'insegnante per generare dati di formazione in formati rigorosi, come sequenze di numeri, frammenti di codice o ragionamenti passo a passo per problemi di matematica.

In un esempio, i ricercatori hanno dato il prompt a un modello addestrato ad “amare i gufi” di produrre elenchi di numeri, tra cui sequenze come “285, 574, 384”, senza menzionare gufi o animali di alcun tipo. Hanno poi filtrato attentamente i dati per seguire modelli rigorosi ed escludere qualsiasi riferimento esplicito al comportamento originale, come la preferenza del modello per i gufi o qualsiasi altro segno della sua distorsione codificata. Tuttavia, quando i ricercatori hanno addestrato un secondo modello su quei dati, utilizzando la stessa architettura sottostante, si è sviluppata una preferenza misurabile per i gufi.

Più e più volte, i ricercatori hanno scoperto che i tratti si trasmettevano da insegnante a studente, anche quando i dati apparivano del tutto neutrali. L'effetto si è mantenuto sia per i comportamenti innocui, come la preferenza per gli animali, sia per i tratti più gravi legati al disallineamento del modello e al reward hacking.

Fortunatamente, il fenomeno ha un confine chiaro, che può aiutare i ricercatori a definire quando e dove è probabile che si verifichi l'effetto. Il trasferimento dei tratti avveniva solo quando i modelli insegnante e studente si basavano sulla stessa architettura sottostante. Questo suggerisce che ciò che viene trasmesso non è conoscenza generale, ma schemi statistici legati a una specifica famiglia di modelli. Gli autori dell'articolo si riferiscono a questi dati come "impronte digitali statistiche specifiche del modello".

Ad esempio, un set di dati generato da GPT-4.1 nano di OpenAI ha trasmesso con successo un tratto a un'altra istanza di GPT-4.1 nano. Ma quando gli stessi dati sono stati utilizzati per addestrare un modello basato su Alibaba Qwen2.5, l'effetto è scomparso. Anche modelli strettamente correlati, addestrati da diversi checkpoint, non hanno sempre mostrato il trasferimento di caratteristiche, rafforzando l'idea che queste impronte digitali siano legate a dettagli strutturali di basso livello.