Nella maggior parte delle scienze empiriche, la riproducibilità è un test di rigore. Un esperimento chimico che non può essere riprodotto è sospetto. È improbabile che una sperimentazione medica con input non tracciabili superi la valutazione dei pari. Nell'intelligenza artificiale, la riproducibilità si basa tradizionalmente sulla pubblicazione da parte dei ricercatori non solo delle architetture dei modelli e dei parametri di addestramento, ma anche degli esatti set di dati utilizzati per addestrare tali modelli. Questi set di dati, siano essi raccolte di immagini, registrazioni audio o documenti di testo, costituiscono la base di ciò che sanno i modelli e di come si generalizzano a nuovi input.

All'inizio degli anni 2010, questo modello di apertura era la norma. Sia i laboratori accademici che i ricercatori aziendali hanno condiviso i corpora di addestramento, descritto le fasi di pre-elaborazione ed eseguito dei benchmark rispetto a standard comuni. Ma nel 2020 il landscape era cambiato. Man mano che aziende come OpenAI hanno iniziato a competere più aggressivamente per il vantaggio commerciale, la pratica della condivisione dei set di dati è caduta in disuso.

Questo cambiamento non riguardava solo la proprietà intellettuale. Come sottolinea Hao, l'enorme dimensione dei moderni set di dati di addestramento, che spesso comprendono centinaia di miliardi di token recuperati da Internet, ha reso praticamente impossibile documentarli in modo approfondito. Le aziende hanno iniziato a fare affidamento su strumenti automatici di scraping e filtraggio per assemblare i set di dati. Tuttavia, questi strumenti non erano in grado di rilevare problemi sottili e hanno introdotto un nuovo livello di incertezza nel processo di addestramento.

Un caso rivelatore arriva dai ricercatori della Stanford University, che hanno esaminato il set di dati di immagini LAION-5B, ampiamente utilizzato. Nonostante fosse pubblico, il set di dati conteneva migliaia di casi di materiale di abuso sessuale su minori, verificato o sospetto. Questa scoperta è avvenuta anni dopo che il set di dati circolava liberamente ed era già stato utilizzato per addestrare generatori commerciali di immagini. L'episodio è servito come campanello d'allarme. Se un danno così grande può essere incorporato in un set di dati aperto, cosa potrebbe nascondersi in quelli privati?

"Non possiamo nemmeno più garantire una suddivisione tra test e addestramento," spiega Hao, riferendosi a una pratica metodologica di base nel machine learning.

In una tipica configurazione di AI, il set di dati viene suddiviso in due parti: una parte viene utilizzata per l'addestramento del modello e l'altra per testare le sue prestazioni. Questa modalità aiuta a misurare l'accuratezza del modello su dati che non aveva mai visto prima. Tuttavia, quando un set di dati è così grande e opaco da rendere i suoi contenuti praticamente sconosciuti, nasce il rischio che il contenuto duplicato appaia in entrambi i set, contaminando la valutazione e gonfiando le metriche delle prestazioni.

Il risultato è un campo sempre più dipendente dalla fede piuttosto che dalla verifica. "È diventato più alchemico che scientifico", afferma Hao. "Analizziamo il modello con più calcoli e più dati nella speranza che emerga qualcosa."

Non tutti si sono precipitati a scalare. Come descrive Hao, un altro movimento sottile è arrivato da parte dei ricercatori che hanno seguito una strada diversa. Invece di cercare database sempre più grandi, hanno puntato a piccoli set di dati selezionati a mano. Non si trattava di quanti dati avevano, ma di come quei dati catturavano le sfumature della lingua, la gamma dell'esperienza umana e gli imperativi dell'equità.

Mentre il settore spingeva per ottenere di più, si chiedeva anche cosa fosse stato trascurato lungo il percorso. DeepSpeech di Mozilla, ad esempio, era un progetto di riconoscimento vocale basato su clip audio donate dagli utenti con il loro pieno consenso. Ogni clip veniva revisionata e taggata manualmente, con un grande sforzo dedicato a perfezionare il set di dati per garantire chiarezza e diversità in termini di voci, accenti e schemi linguistici.

Analogamente, il modello linguistico BLOOM, sviluppato da un consorzio di ricerca globale sotto la guida di Hugging Face, è stato addestrato su set di dati pubblici raccolti con attenzione alla diversità linguistica, geografica e tematica. Ogni fonte è stata documentata. Sono stati invitati a svolgere audit comunitari. A differenza dei foundation model, BLOOM ha reso la sua metodologia di formazione leggibile,

ma tali sforzi sono stati messi in ombra sempre di più. La logica prevalente del settore ora favorisce la scalabilità, afferma Hao. I modelli più grandi addestrati su set di dati più ampi tendono a mostrare proprietà emergenti, come ragionamento complesso o generazione di codice, anche senza una regolazione specifica per compito. Questo aspetto incoraggia i team ad abbandonare l'attenta progettazione dei dati a favore dello scraping di tutto ciò che possono.