Tempo di lettura
L'oblio catastrofico si verifica quando reti neurali dimenticano attività apprese in precedenza dopo essere state addestrate su nuovi dati o sottoposte a perfezionamento per attività specifiche. Noto anche come interferenza catastrofica, questo fenomeno fa sì che le reti addestrate perdano le informazioni relative ai vecchi compiti quando vengono addestrate su nuovi dati in un processo di apprendimento sequenziale.
Numerose implementazioni di AI richiedono modelli di apprendimento automatico per adattarsi a nuovi casi d'uso nel tempo. L'oblio catastrofico si verifica quando il processo di addestramento per le nuove attività interferisce con la comprensione delle vecchie attività da parte del modello. Man mano che le nuove conoscenze sostituiscono l'apprendimento precedente, il modello perde la capacità di gestire i compiti originali.
Osservata per la prima volta da Michael McCloskey e Neal J. Cohen nel 19891, l'oblio catastrofico si verifica a causa del modo in cui gli algoritmi di apprendimento automatico si adattano ai nuovi set di dati. Il processo di addestramento per i modelli di deep learning, come i modelli linguistici di grandi dimensioni (LLM), prevede l'esposizione del modello ai dati e la possibilità di aggiornarne i pesi di conseguenza. Un articolo di informatica del 2023 2 ha rilevato che riguarda i modelli di grandi dimensioni in modo più grave rispetto a quelli più piccoli.
I pesi di rete, noti anche come parametri di un modello, sono il set di regole interno che utilizza per acquisire modelli e relazioni nei set di dati di addestramento. Durante l'addestramento, un algoritmo di apprendimento automatico aggiorna i suoi pesi in modo iterativo in base a una funzione di perdita: un'equazione matematica che misura l'errore nelle previsioni del modello.
L'obiettivo dell'addestramento è ridurre al minimo la funzione di perdita attraverso metodi come la discesa del gradiente. Il tasso di apprendimento imposta il ritmo con cui un modello aggiorna i propri pesi durante l'addestramento.
La configurazione dei pesi di un modello è la sua rappresentazione della conoscenza: un riflesso matematico del modo in cui il modello conosce i propri dati di addestramento. Se un modello regola i propri pesi in modo sostanziale in modo che i nuovi valori non siano più rilevanti per le attività precedenti, allora perde la capacità di eseguire tali attività. Nel processo di apprendimento di nuove attività, il modello ha dimenticato "catastroficamente" o completamente come affrontare quelli vecchi.
Le reti neurali sono composte da nodi interconnessi che imitano i neuroni del cervello umano. Durante l'apprendimento, il cervello crea delle sinapsi, o connessioni tra i neuroni nella neocorteccia, la regione del cervello responsabile della cognizione di livello superiore. Nel frattempo, l'ippocampo è responsabile della conversione dei ricordi a breve termine in ricordi a lungo termine e della conservazione della conoscenza.
Sebbene il campo delle neuroscienze abbia ancora molto da scoprire sul cervello, sappiamo che il cervello eccelle nell'ottimizzazione interna. La neuroplasticità, o plasticità cerebrale, si riferisce alla capacità del cervello di ristrutturarsi per l'apprendimento continuo. Le connessioni sinaptiche utilizzate più spesso diventano più forti, mentre quelle utilizzate meno frequentemente appassiscono e alla fine scompaiono.
La plasticità è quello che consente alle persone di recuperare le capacità perdute, come la parola o il movimento, dopo aver subito una lesione cerebrale traumatica. Senza la plasticità neurale, gli umani non sarebbero in grado di imparare man mano che crescono. Il cervello dei neonati e dei bambini piccoli ha una maggiore plasticità, motivo per cui sono in grado di imparare le lingue così facilmente rispetto agli adulti tipici.
Le reti neurali artificiali funzionano in modo simile in quanto regolano il loro peso in risposta a nuovi dati, proprio come il cervello crea nuove connessioni sinaptiche. Gli strati nascosti tra input e output di una rete neurale possono spostarsi nel tempo. Quando le neural networks danno priorità ai nuovi dati rispetto alle conoscenze precedenti, possono aggiustare eccessivamente i loro pesi: invece di espandere le proprie conoscenze, il modello sostituisce efficacemente le conoscenze precedenti con i nuovi dati.
L'oblio catastrofico può avere effetti sostanziali sulle prestazioni dei modelli di apprendimento automatico, come quelli utilizzati per le app di AI generativa. Quando i modelli vengono applicati a nuovi casi d'uso, possono subire una deriva man mano che i loro pesi si spostano e alla fine andare incontro a una catastrofica dimenticanza.
Le dimenticanze catastrofiche possono influire negativamente:
Addestramento dei modelli e utilizzo delle risorse: i modelli che dimenticano le conoscenze fondamentali devono essere addestrati nuovamente. La formazione dei modelli LLM che alimentano i principali servizi di AI generativa costa milioni di dollari, comprese le risorse di calcolo, l'elettricità e l'acqua per alimentare i data center iperscalabili che li ospitano.
Implementazione dei modelli e manutenzione delle app AI: quando le prestazioni di un modello scadono, anche le app che lo chiamano riscontreranno problemi di prestazioni. Nelle implementazioni edge, in cui i modelli devono adattarsi alle circostanze locali, il rischio di dimenticanze catastrofiche può aumentare.
Apprendimento autonomo: i sistemi di apprendimento esperienziale possono subire una dimenticanza catastrofica nel tempo. La perdita di conoscenze fondamentali potrebbe rendere questi sistemi meno adattabili, affidabili e coerenti. Con la robotica e le automobili a guida autonoma, questi effetti potrebbero essere particolarmente pericolosi.
Ricercatori e altri esperti hanno proposto una serie di tecniche per contrastare l'oblio catastrofico. Un importante articolo pubblicato nel 2017 da James Kirkpatrick, Andrei A. Rusi e altri collaboratori ha esplorato un metodo basato sul rallentamento del tasso di apprendimento per i pesi relativi alle attività precedenti. Nel 2025, un altro gruppo di informatici ha esplorato l'uso della retropropagazione per superare l'oblio catastrofico (NOTA A PIÈ DI PAGINA: https://arxiv.org/abs/2501.01045#).
Altre tecniche per superare l'oblio catastrofico includono:
Regolarizzazione
Soluzioni architettoniche
Metodi d'insieme
Tecniche di prova
Rete neurali con memoria aumentata (MANNs)
La regolarizzazione è un insieme di tecniche che rendono i modelli più generalizzabili con il rischio di aumentare i pregiudizi: si adattano più facilmente ai nuovi dati. L'Elastic Weight Consolidation (EWC) è una di queste tecniche che aggiunge una penalità alla funzione di perdita per le regolazioni dei pesi del modello che sono importanti per le attività precedenti.
L'intelligenza sinaptica funziona in modo simile, disincentivando il modello dal cambiamento dei parametri principali. Entrambe le tecniche rendono il modello meno propenso a perdere le precedenti conoscenze.
L'architettura del modello descrive la struttura di una rete neurale, incluso il numero di livelli e il modo in cui sono collegati i nodi. Ogni livello è dedicato a una diversa funzione nel workflow dell'AI, come la previsione o l'estrazione di caratteristiche.
Reti neurali progressive (PNN) aggiungono reti neurali per nuove attività mantenendo le connessioni nelle reti neurali utilizzate per i ruoli precedenti. Il modello combina gli output di tutte le reti, attingendo alle sue conoscenze precedenti anche quando lavora su nuovi compiti.
Altre reti utilizzano la dynamic weight average (DWA) durante l'apprendimento multi-task per regolare dinamicamente i pesi dei modelli durante l'addestramento. DWA consente ai modelli di adattarsi in modo flessibile a diverse attività.
I metodi Ensemble combinano gli output di più modelli per risultati più affidabili. Le foreste per l'apprendimento permanente sono modelli di foreste casuali che aggiungono nuove foreste o alberi decisionali per nuove attività, in modo simile al modo in cui i PNN aggiungono nuove reti man mano che il loro workload si espande.
Nel frattempo, le architetture modulari compartimentate possono evitare che i nuovi dati contaminino il resto della rete. I moduli specifici per le attività si attivano in base alle necessità, preservando le conoscenze acquisite quando non vengono utilizzate.
Le tecniche di prova espongono il modello a dati obsoleti durante l'addestramento per nuove attività, contribuendo a garantire che il modello non dimentichi in modo catastrofico quello che ha appreso in precedenza. La riproduzione dell'esperienza è una tecnica di apprendimento per rinforzo in cui un modello memorizza le esperienze passate in un set di dati separato, quindi campiona casualmente da questa memoria durante l'addestramento.
Le reti neurali con incremento di memoria sono un'architettura promettente che combina le reti neurali con lo storage. Durante l'elaborazione di sequenze di input, come i prompt, i MANN possono leggere e scrivere dalla memoria. Molti utilizzano meccanismi di attenzione per isolare i componenti di memoria più pertinenti per ogni compito.
La Gradient episodic memory (GEM) è un esempio MANN che consente ai modelli AI di memorizzare e richiamare esperienze per informare di nuove attività e preservare le conoscenze acquisite in precedenza.
1. "Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem," McCloskey and Cohen, Psychology of Learning and Motivation, 1989
2. "An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning", Luo et al, 5 Jan 2025
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.