Un detto comune nello sviluppo AI e nell'informatica è che un modello di intelligenza artificiale (AI) è valido tanto quanto lo sono i dati su cui è stato addestrato. Negli ultimi anni, i ricercatori hanno scoperto che i modelli generativi addestrati esclusivamente sull’output dei loro predecessori producono risultati sempre più imprecisi. Questi modelli, afflitti da "difetti irreversibili", alla fine diventano inutili.1 Ciò avviene perché eventuali errori presenti nell'output di un modello durante il suo fitting vengono successivamente inclusi nell'addestramento del suo successore. Quindi, anche il nuovo modello produce i propri errori. Il collasso del modello progredisce con l'aggravarsi degli errori nelle generazioni successive.2

Questi errori si verificano perché i modelli AI producono set di dati con meno variazioni rispetto alle distribuzioni di dati originali. Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao e un team di colleghi ricercatori con sede presso università britanniche e canadesi hanno scritto un rapporto ampiamente citato sul collasso del modello. Attraverso esperimenti sui modelli AI, il team ha scoperto che i modelli addestrati su dati generati dall'AI, noti anche come dati sintetici, inizialmente perdevano informazioni dalla coda, o dagli estremi, della vera distribuzione dei dati, quello che hanno definito "collasso precoce del modello". Nelle prove successive del modello, la distribuzione dei dati si discostava così tanto che non assomigliava quasi per niente ai dati originali e i ricercatori lo hanno definito "collasso tardivo del modello".3

In scenari reali, il collasso del modello potrebbe verificarsi a causa dei processi di addestramento utilizzati per i modelli di AI generativa di grandi dimensioni, come i large language models (LLM). Gli LLM sono per lo più addestrati su dati generati dall'uomo e raccolti da internet. Tuttavia, man mano che più contenuti generati dall'AI si moltiplicano sul web, più è probabile che vengano utilizzati per addestrare modelli futuri al posto dei dati generati dall'uomo, provocando potenzialmente il collasso del modello.

Il fenomeno del collasso del modello presenta serie implicazioni per lo sviluppo dell'AI, portando i ricercatori a proporre diverse soluzioni. Tali soluzioni includono il monitoraggio della provenienza dei dati, la conservazione dell'accesso alle fonti di dati originali e la combinazione dei dati accumulati generati dall'AI con dati reali per addestrare i modelli AI.