In molti contesti del mondo reale, l'accuratezza e la capacità di un modello AI non sono, di per sé, sufficienti a rendere il modello utile: il modello deve anche rientrare nel budget disponibile in termini di tempo, memoria, denaro e risorse computazionali.
I modelli che offrono le migliori prestazioni per una determinata attività sono spesso troppo grandi, lenti o costosi per la maggior parte dei casi d'uso pratici, ma spesso hanno qualità uniche che emergono da una combinazione delle loro dimensioni e della loro capacità di pre-addestramento su un'enorme quantità di dati di addestramento. Queste capacità emergenti sono particolarmente evidenti nei modelli linguistici autoregressivi, come GPT o Llama, che mostrano capacità che vanno al di là del loro obiettivo di addestramento esplicito, ovvero la semplice previsione della parola successiva in una sequenza. Al contrario, i modelli piccoli sono più veloci e meno impegnativi dal punto di vista computazionale, ma mancano dell’accuratezza, della raffinatezza e della capacità di conoscenza di un modello grande con molti più parametri.
In un importante articolo del 2015, "Distilling the Knowledge in a Neural Network", Hinton et al. hanno proposto di aggirare queste limitazioni dividendo l'addestramento in due fasi distinte con scopi distinti. Gli autori hanno presentato un'analogia: mentre molti insetti hanno una forma larvale ottimizzata per estrarre energia e sostanze nutritive dall'ambiente e una forma adulta completamente diversa ottimizzata per gli spostamenti e la riproduzione, il deep learning convenzionale utilizza gli stessi modelli sia per le fasi di addestramento che per quelle di distribuzione, nonostante le loro diverse esigenze.
Prendendo ispirazione sia dalla natura che dal lavoro di Caruana et al, Hinton et al hanno suggerito che vale la pena addestrare modelli grandi e ingombranti se questo consente di estrarre nel miglior modo la struttura dai dati, ma hanno introdotto un diverso tipo di addestramento, la distillazione, per trasferire tali conoscenze su un modello piccolo più adatto all'impiego in tempo reale.2
Le tecniche di distillazione della conoscenza mirano non solo a replicare gli output dei modelli insegnante, ma a emulare i loro "processi di pensiero". Nell'era degli LLM, la KD ha permesso il trasferimento di qualità astratte come lo stile, le capacità di ragionamento e l'allineamento alle preferenze e ai valori umani.3
Inoltre, i modelli più piccoli sono fondamentalmente più spiegabili: in un modello con centinaia di miliardi di parametri, è difficile interpretare i contributi delle diverse parti della rete neurale. Il trasferimento delle rappresentazioni apprese da grandi modelli "black box" in modelli più semplici può aiutare a chiarire insight trasformativi in campi come la diagnostica medica e la scoperta molecolare.4