Il collasso del modello si riferisce al calo delle prestazioni dei modelli di AI generativa addestrati su contenuti generati dall'intelligenza artificiale.
Un detto comune nello sviluppo AI e nell'informatica è che un modello di intelligenza artificiale (AI) è valido tanto quanto lo sono i dati su cui è stato addestrato. Negli ultimi anni, i ricercatori hanno scoperto che i modelli generativi addestrati esclusivamente sull’output dei loro predecessori producono risultati sempre più imprecisi. Questi modelli, afflitti da "difetti irreversibili", alla fine diventano inutili.1 Ciò avviene perché eventuali errori presenti nell'output di un modello durante il suo fitting vengono successivamente inclusi nell'addestramento del suo successore. Quindi, anche il nuovo modello produce i propri errori. Il collasso del modello progredisce con l'aggravarsi degli errori nelle generazioni successive.2
Questi errori si verificano perché i modelli AI producono set di dati con meno variazioni rispetto alle distribuzioni di dati originali. Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao e un team di colleghi ricercatori con sede presso università britanniche e canadesi hanno scritto un rapporto ampiamente citato sul collasso del modello. Attraverso esperimenti sui modelli AI, il team ha scoperto che i modelli addestrati su dati generati dall'AI, noti anche come dati sintetici, inizialmente perdevano informazioni dalla coda, o dagli estremi, della vera distribuzione dei dati, quello che hanno definito "collasso precoce del modello". Nelle prove successive del modello, la distribuzione dei dati si discostava così tanto che non assomigliava quasi per niente ai dati originali e i ricercatori lo hanno definito "collasso tardivo del modello".3
In scenari reali, il collasso del modello potrebbe verificarsi a causa dei processi di addestramento utilizzati per i modelli di AI generativa di grandi dimensioni, come i large language models (LLM). Gli LLM sono per lo più addestrati su dati generati dall'uomo e raccolti da internet. Tuttavia, man mano che più contenuti generati dall'AI si moltiplicano sul web, più è probabile che vengano utilizzati per addestrare modelli futuri al posto dei dati generati dall'uomo, provocando potenzialmente il collasso del modello.
Il fenomeno del collasso del modello presenta serie implicazioni per lo sviluppo dell'AI, portando i ricercatori a proporre diverse soluzioni. Tali soluzioni includono il monitoraggio della provenienza dei dati, la conservazione dell'accesso alle fonti di dati originali e la combinazione dei dati accumulati generati dall'AI con dati reali per addestrare i modelli AI.
I modelli di AI generativa hanno fatto notizia negli ultimi anni per aver creato output errati e privi di senso, chiamati anche allucinazioni dell'AI. Ad esempio, il chatbot di Google Bard ha fatto un'affermazione errata sul James Webb Space Telescope, mentre la tendenza nel rappresentare dita in più nelle immagini di umani generati dall'AI è ormai nota.
Sebbene gli output imprecisi e privi di senso siano sconvenienti e a volte divertenti, le conseguenze del collasso del modello possono anche essere di vasta portata:
Gli output inaccurati causati dal collasso del modello possono creare conseguenze costose per le aziende che utilizzano l'AI nel processo decisionale. Tutto, dai customer service chatbot agli strumenti di diagnostica medica basati sull'AI, potrebbero risentirne. Immaginiamo, ad esempio, un modello diagnostico di AI che non riesce a diagnosticare correttamente un paziente con una malattia rara, perché la condizione a bassa probabilità è stata dimenticata e rimossa dai set di dati di addestramento nelle generazioni precedenti del modello.
In caso di collasso del modello, i modelli potrebbero scartare i punti dati periferici relativi alle interazioni e alle preferenze umane reali. Di conseguenza, gli utenti alla ricerca di contenuti meno popolari o unici potrebbero ritrovarsi delusi dagli output dei modelli.4 Consideriamo, ad esempio, un sistema di raccomandazione basato sull'AI per gli acquirenti online: se un consumatore preferisce le scarpe verde lime, ma il sistema continua a consigliargli quelle nere e bianche perché sono le più vendute, il consumatore potrebbe essere portato a cercare aiuto altrove.
Se i sistemi AI ampiamente utilizzati, soggetti al collasso del modello, continuano a produrre risultati sempre più limitati, le idee "long-tail" potrebbero alla fine scomparire dalla coscienza pubblica, riducendo l'ambito della conoscenza umana e accentuando i bias comuni nella società.5 Ad esempio, oggi gli scienziati possono rivolgersi a strumenti di ricerca basati su AI per ottenere studi su cui basare la proprie ricerche. Tuttavia, gli strumenti interessati dal collasso del modello potrebbero fornire per la revisione solo studi ampiamente citati, privando potenzialmente gli utenti di informazioni chiave che potrebbero portare a scoperte importanti.
I diversi tipi di modelli di AI generativa sono vulnerabili ai diversi impatti del collasso dei modelli.
Negli LLM, il collasso del modello può manifestarsi in output di testo sempre più irrilevanti, insensati e ripetitivi. In un esperimento, i ricercatori hanno messo a punto OPT-125M, un modello di linguaggio di grandi dimensioni open source rilasciato da Meta. Le generazioni del modello sono state addestrate sui dati prodotti dai loro predecessori. Dopo un primo input in lingua inglese sull'architettura, una generazione di modelli ha infine prodotto un output di lepri con code di colore diverso.6
Il collasso del modello è particolarmente evidente nei modelli che generano immagini poiché l'output dell'immagine diminuisce in termini di qualità, diversità e precisione. Un esperimento ha utilizzato un set di dati di numeri distinti scritti a mano per addestrare un Variational Autoencoder (VAE). Dopo diversi cicli di addestramento ripetuti, le generazioni successive del modello hanno prodotto output in cui molte cifre si assomigliavano.7 Un altro studio che includeva un modello di rete generativa avversaria (GAN) addestrato su diverse immagini di volti ha scoperto che il modello alla fine ha prodotto volti più omogenei.8
I modelli di miscela gaussiana possono organizzare i dati in cluster, ma i ricercatori hanno scoperto che un GMM incaricato di separare i dati in due cluster ha ottenuto risultati significativamente peggiori dopo alcune dozzine di ripetizioni. La percezione del modello sulla distribuzione dei dati sottostante è cambiata nel tempo e alla sua 2000esima prova, il suo output ha mostrato una varianza molto ridotta.9
Il collasso del modello è uno dei molteplici fenomeni di degradazione del modello osservati nell'apprendimento automatico. Altri includono la dimenticanza catastrofica, il collasso della modalità, la deriva del modello e la previsione performativa. Ciascuno di essi presenta delle somiglianze, ma è diverso dal collasso del modello.
Sia la dimenticanza catastrofica che il collasso del modello comportano la perdita di informazioni da parte dei sistemi AI. Tuttavia, la dimenticanza catastrofica è diversa dal collasso del modello. La dimenticanza catastrofica si verifica quando un singolo modello apprende nuove informazioni e "dimentica" le informazioni precedenti, con conseguente riduzione delle prestazioni quando quel modello viene applicato a un'attività che richiede l'uso delle informazioni precedenti. Il collasso del modello è diverso perché comporta un calo delle prestazioni nelle generazioni successive del modello, anziché che la perdita di dati e il deterioramento delle prestazioni all'interno di un modello.10
Sebbene sia simile nel nome al collasso del modello, il collasso della modalità è un fenomeno specifico dei modelli GAN. Questi modelli sono costituiti da due parti diverse, un generatore e un discriminatore, che aiutano a produrre dati sintetici statisticamente simili ai dati reali. Il generatore ha il compito di creare i dati, mentre il discriminatore funge da controllo continuo sul processo, identificando i dati che appaiono non autentici. Il collasso della modalità si verifica quando l'output del generatore è priva di varianza e questo difetto non viene rilevato dal discriminatore, con conseguente peggioramento delle prestazioni.
La deriva del modello si riferisce al degrado delle prestazioni del modello di apprendimento automatico dovuto a cambiamenti nei dati o nelle relazioni tra variabili di input e output. I modelli che vengono costruiti con dati storici possono diventare statici. Se l'addestramento di un modello AI, basato su dati di addestramento obsoleti, non è allineato con i dati in entrata, questo non è in grado di interpretarli accuratamente o di utilizzarli in tempo reale per eseguire previsioni puntuali in modo affidabile. Il collasso del modello è diverso perché comporta l'addestramento di modelli su nuovi dati generati dall'AI in cicli ripetuti.
I ricercatori hanno confrontato il collasso del modello nei modelli di AI generativa con la previsione performativa nei modelli di apprendimento supervisionato, perché entrambi comportano l'inquinamento dei set di addestramento a causa dei precedenti input del modello di machine learning. La previsione performativa si verifica quando l'output di un modello di apprendimento supervisionato influenza i risultati del mondo reale in un modo conforme alla previsione del modello. Ciò, a sua volta, influenza gli output futuri del modello, dando origine a una "profezia che si autoavvera". La previsione performativa è anche nota come ciclo di feedback di equità quando questo processo rafforza la discriminazione.11 Ad esempio, un modello decisionale per i prestiti basato sull'AI, addestrato sui dati dell'epoca del redlining discriminatorio degli Stati Uniti, può incoraggiare gli istituti di credito a replicare inavvertitamente tale discriminazione oggi.
Esistono diverse strategie che potrebbero aiutare gli sviluppatori e le organizzazioni di AI a prevenire il collasso del modello. Eccone alcune:
Le fonti di dati originali di alta qualità possono fornire una varianza importante che potrebbe mancare in alcuni dati generati dall'AI. Garantire che i modelli AI siano ancora addestrati su tali dati generati dall'uomo può preservare la capacità dei sistemi di AI di funzionare bene quando hanno il compito di tenere conto di eventi a bassa probabilità, come un consumatore che preferisce un prodotto insolito o uno scienziato che trova utili delle informazioni in uno studio raramente citato. In tali circostanze, l'output che ne risulta potrebbe non essere comune o popolare, ma è comunque, di fatto, più accurato.
Negli ecosistemi informativi, può essere difficile distinguere tra dati generati da modelli e dati generati dall'uomo, ma il coordinamento tra sviluppatori LLM e ricercatori di AI potrebbe contribuire a garantire l'accesso alle informazioni sulla provenienza dei dati. Uno di questi sforzi coordinati è realtà grazie a The Data Provenance Initiative, un collettivo di ricercatori di intelligenza artificiale dell'MIT e di altre università che ha verificato più di 4.000 set di dati.12
Secondo uno studio, gli sviluppatori di AI possono evitare un peggioramento delle prestazioni addestrando modelli AI con dati reali e più generazioni di dati sintetici. Questo accumulo è in contrasto con la pratica di sostituire completamente i dati originali con dati generati dall'AI.13
Man mano che gli sviluppatori di AI esplorano l'accumulo di dati, potrebbero anche trarre vantaggio dai miglioramenti della qualità dei dati sintetici prodotti specificamente per scopi di addestramento dell'apprendimento automatico. I progressi negli algoritmi di generazione dei dati possono contribuire a migliorare l'affidabilità dei dati sintetici e aumentarne l'utilità. Nel settore sanitario, ad esempio, i dati sintetici possono essere utilizzati anche per fornire una gamma più ampia di scenari per i modelli di formazione, portando a migliori funzionalità diagnostiche.
Gli strumenti di governance dell'IA possono aiutare gli sviluppatori e le aziende di AI a mitigare il rischio di un calo delle prestazioni dell'AI potenziando la supervisione e il controllo sui sistemi di AI. Tali strumenti possono includere sistemi di rilevamento automatico di distorsioni, derive, prestazioni e anomalie, potenzialmente in grado di rilevare il collasso del modello prima che abbia un impatto sui profitti dell'organizzazione.
Link esterni a ibm.com.
1, 3, 6, 7 "The Curse of Recursion: Training on Generated Data Makes Models Forget." arXiv.org. 14 aprile 2024.
2 "The Internet Isn’t Completely Weird Yet; AI Can Fix That." IEEE Spectrum. 23 giugno 2023.
4, 5 "AI and the Problem of Knowledge Collapse." arXiv.org. 22 aprile 2024.
8 "Breaking MAD: Generative AI could break the Internet." Rice University News and Media Relations. 30 luglio 2024.
9, 10 "Supplementary Information: AI models collapse when trained on recursively generated data." Nature Portfolio. Consultato il 22 settembre 2024.
11 "Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias." ACM Conference on Fairness, Accountability, and Transparency. Consultato il 30 settembre 2024.
12 "About." Data Provenance Initiative. Consultato il 23 settembre 2024.
13 "Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data." arXiv.org. 29 aprile 2024.
Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione su cloud o on-premise con IBM watsonx.governance.
Scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei suoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fidelizzazione dei clienti.
Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.