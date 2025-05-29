All'inizio del 2019, si è verificato un cambiamento sottile ma significativo nel mondo dell'intelligenza artificiale. OpenAI, un attore chiave nel settore, ha iniziato ad allontanarsi dall'enfasi precedente sulla ricerca aperta. Col tempo, l'accesso ai set di dati si è ristretto, i dettagli sui metodi di addestramento sono diventati sempre più difficili da trovare e il lavoro interno è diventato più chiuso. Quello che all'epoca sembrava un normale cambio di direzione avrebbe segnato una svolta per l'AI, rimodellando il modo in cui la ricerca viene condivisa, sviluppata e dibattuta in tutto il mondo.
"Non c'è più visibilità nei loro set di dati", afferma Karen Hao, osservatrice di lunga data del settore ed ex Senior Editor for Artificial Intelligence presso la MIT Technology Review, in un'intervista a IBM Think.
Il nuovo libro di Hao, Empire of AI, racconta lo sviluppo dell'AI generativa dall'interno, tracciando non solo le motivazioni economiche e politiche dietro l'ascesa di aziende come OpenAI, ma anche le decisioni tecniche silenziose che hanno ridefinito la scienza stessa. "Anche OpenAI non sempre sa cosa contengono i propri set di addestramento. I dati sono semplicemente troppo grandi per essere verificati manualmente."
Questa ammissione potrebbe sembrare banale a un osservatore superficiale. Ma per i ricercatori, l'incapacità di caratterizzare o replicare in modo affidabile i dati utilizzati per addestrare un modello mina le fondamenta stesse della disciplina. Per decenni, il machine learning si è basato su un semplice principio scientifico: la riproducibilità. Un modello dovrebbe comportarsi allo stesso modo se addestrato nelle stesse condizioni. Ma con gli attuali enormi set di dati non curati, queste condizioni sono spesso sconosciute.
Nella maggior parte delle scienze empiriche, la riproducibilità è un test di rigore. Un esperimento chimico che non può essere riprodotto è sospetto. È improbabile che una sperimentazione medica con input non tracciabili superi la valutazione dei pari. Nell'intelligenza artificiale, la riproducibilità si basa tradizionalmente sulla pubblicazione da parte dei ricercatori non solo delle architetture dei modelli e dei parametri di addestramento, ma anche degli esatti set di dati utilizzati per addestrare tali modelli. Questi set di dati, siano essi raccolte di immagini, registrazioni audio o documenti di testo, costituiscono la base di ciò che sanno i modelli e di come si generalizzano a nuovi input.
All'inizio degli anni 2010, questo modello di apertura era la norma. Sia i laboratori accademici che i ricercatori aziendali hanno condiviso i corpora di addestramento, descritto le fasi di pre-elaborazione ed eseguito dei benchmark rispetto a standard comuni. Ma nel 2020 il landscape era cambiato. Man mano che aziende come OpenAI hanno iniziato a competere più aggressivamente per il vantaggio commerciale, la pratica della condivisione dei set di dati è caduta in disuso.
Questo cambiamento non riguardava solo la proprietà intellettuale. Come sottolinea Hao, l'enorme dimensione dei moderni set di dati di addestramento, che spesso comprendono centinaia di miliardi di token recuperati da Internet, ha reso praticamente impossibile documentarli in modo approfondito. Le aziende hanno iniziato a fare affidamento su strumenti automatici di scraping e filtraggio per assemblare i set di dati. Tuttavia, questi strumenti non erano in grado di rilevare problemi sottili e hanno introdotto un nuovo livello di incertezza nel processo di addestramento.
Un caso rivelatore arriva dai ricercatori della Stanford University, che hanno esaminato il set di dati di immagini LAION-5B, ampiamente utilizzato. Nonostante fosse pubblico, il set di dati conteneva migliaia di casi di materiale di abuso sessuale su minori, verificato o sospetto. Questa scoperta è avvenuta anni dopo che il set di dati circolava liberamente ed era già stato utilizzato per addestrare generatori commerciali di immagini. L'episodio è servito come campanello d'allarme. Se un danno così grande può essere incorporato in un set di dati aperto, cosa potrebbe nascondersi in quelli privati?
"Non possiamo nemmeno più garantire una suddivisione tra test e addestramento," spiega Hao, riferendosi a una pratica metodologica di base nel machine learning.
In una tipica configurazione di AI, il set di dati viene suddiviso in due parti: una parte viene utilizzata per l'addestramento del modello e l'altra per testare le sue prestazioni. Questa modalità aiuta a misurare l'accuratezza del modello su dati che non aveva mai visto prima. Tuttavia, quando un set di dati è così grande e opaco da rendere i suoi contenuti praticamente sconosciuti, nasce il rischio che il contenuto duplicato appaia in entrambi i set, contaminando la valutazione e gonfiando le metriche delle prestazioni.
Il risultato è un campo sempre più dipendente dalla fede piuttosto che dalla verifica. "È diventato più alchemico che scientifico", afferma Hao. "Analizziamo il modello con più calcoli e più dati nella speranza che emerga qualcosa."
Non tutti si sono precipitati a scalare. Come descrive Hao, un altro movimento sottile è arrivato da parte dei ricercatori che hanno seguito una strada diversa. Invece di cercare database sempre più grandi, hanno puntato a piccoli set di dati selezionati a mano. Non si trattava di quanti dati avevano, ma di come quei dati catturavano le sfumature della lingua, la gamma dell'esperienza umana e gli imperativi dell'equità.
Mentre il settore spingeva per ottenere di più, si chiedeva anche cosa fosse stato trascurato lungo il percorso. DeepSpeech di Mozilla, ad esempio, era un progetto di riconoscimento vocale basato su clip audio donate dagli utenti con il loro pieno consenso. Ogni clip veniva revisionata e taggata manualmente, con un grande sforzo dedicato a perfezionare il set di dati per garantire chiarezza e diversità in termini di voci, accenti e schemi linguistici.
Analogamente, il modello linguistico BLOOM, sviluppato da un consorzio di ricerca globale sotto la guida di Hugging Face, è stato addestrato su set di dati pubblici raccolti con attenzione alla diversità linguistica, geografica e tematica. Ogni fonte è stata documentata. Sono stati invitati a svolgere audit comunitari. A differenza dei foundation model, BLOOM ha reso la sua metodologia di formazione leggibile,
ma tali sforzi sono stati messi in ombra sempre di più. La logica prevalente del settore ora favorisce la scalabilità, afferma Hao. I modelli più grandi addestrati su set di dati più ampi tendono a mostrare proprietà emergenti, come ragionamento complesso o generazione di codice, anche senza una regolazione specifica per compito. Questo aspetto incoraggia i team ad abbandonare l'attenta progettazione dei dati a favore dello scraping di tutto ciò che possono.
La mentalità scale-first di OpenAI non era solo una conclusione tecnica. È stato il risultato di un sistema di credenze coerente, seppur non ortodosso, condiviso dalla sua leadership, sottolinea Hao. Ha affermato che Ilya Sutskever, Chief Scientist di OpenAI, è un assolutista del deep learning. Era convinto che una rete neurale sufficientemente grande, se alimentata con un numero sufficiente di dati, alla fine avrebbe sviluppato un'intelligenza simile a quella umana. D'altra parte, Sam Altman, CEO di OpenAI, si è avvicinato all'intelligenza artificiale come imprenditore, vedendo la scalabilità esponenziale come il percorso più veloce verso il dominio. Greg Brockman, presidente di OpenAI, è stato la mente ingegneristica che si è concentrata sulla realizzazione di tale scalabilità.
L'architettura che ha permesso questa dottrina è stata il transformer, un tipo di rete neurale introdotta per la prima volta nel 2017. I transformer eccellono nel modellare sequenze di dati, come il testo, perché possono tracciare le relazioni tra parole su lunghe distanze in una frase. È fondamentale che possano essere ampliati in modo efficiente. Aggiungere più strati e più parametri migliora le prestazioni.
Il team di ricerca di OpenAI ha capito che, addestrando i transformer su un set di dati sufficientemente vasto e con sufficiente potenza di calcolo, avrebbe potuto bypassare la necessità di caratteristiche ad hoc, ragionamento simbolico o design modulare. L'intelligenza, a loro avviso, emergerebbe dai dati.
Per addestrare modelli come GPT-4, OpenAI aveva bisogno non solo di idee, ma anche di infrastrutture. I modelli linguistici di questa dimensione richiedono cluster di decine di migliaia di unità di elaborazione grafica. Progettate inizialmente per renderizzare immagini tridimensionali, le GPU si sono rivelate eccezionalmente utili per le moltiplicazioni di matrici alla base delle reti neurali. Detto questo, per metterle insieme e farle agire come un sistema unificato è stata necessaria un'orchestrazione software e hardware personalizzata.
Gli ingegneri di OpenAI hanno sviluppato delle tecniche per partizionare i modelli in frammenti, che potrebbero essere distribuiti su più chip e addestrati in parallelo. Hanno creato protocolli di checkpointing per preservare le sessioni di addestramento parziali, riducendo il rischio di guasti catastrofici. Hanno creato protocolli di comunicazione personalizzati per sincronizzare gli aggiornamenti tra le macchine. Non si trattava di progressi spettacolari, ma erano essenziali.
"Nessuno prima si era addestrato con 10.000 chip", afferma Hao. "Dovevano capirlo in tempo reale."
Questi progressi hanno permesso di scalare i modelli più velocemente e con maggiore efficienza rispetto ai concorrenti. Ma hanno contribuito anche a un nuovo tipo di segretezza. OpenAI ha smesso di pubblicare molti dettagli alla base delle sue scoperte. Divulgare troppo, ha sostenuto l'azienda, significherebbe cedere un vantaggio competitivo.
Entro il 2024, la maggior parte delle aziende tecnologiche più importanti avranno recuperato il ritardo. IBM, Google, Meta, Amazon, Anthropic e i nuovi arrivati, come Mistral, hanno tutti prodotto modelli linguistici di grandi dimensioni utilizzando architetture trasformative e tecniche di addestramento simili. Molti utilizzavano il reinforcement learning con feedback umano, un metodo in cui gli esseri umani valutano la qualità degli output di un modello, permettendo di ottimizzarlo per allinearlo meglio alle preferenze umane.
Per gli outsider, le differenze tra questi sistemi sono diventati più difficili da distinguere. Gli sviluppatori di applicazioni hanno iniziato a progettare interfacce in grado di funzionare con qualsiasi modello dietro le quinte, consentendo di cambiare fornitore in base alle necessità. Il prezzo, la latenza e il tempo di attività sono diventati più importanti delle differenze marginali di intelligenza.
"Oggi tutti cercano di essere agnostici rispetto ai modelli", afferma Hao. “OpenAI non ha più il monopolio sui buoni modelli.”
Poiché la scala non era più un elemento di differenziazione, le aziende hanno iniziato a investire in un paradigma diverso: l'agenzia. Nell'intelligenza artificiale, l'agenzia si riferisce alla capacità di un sistema di prendere l'iniziativa, di persistere nel tempo e di agire verso i suoi obiettivi. Invece di reagire a un prompt, un agente pianifica le azioni, monitora i risultati e adegua il comportamento.
Tutto questo richiedeva nuove funzionalità. I modelli dovevano mantenere la memoria tra le sessioni, integrarsi con strumenti di terze parti e prendere decisioni senza prompt espliciti. L'obiettivo era passare da un chatbot passivo a un collaboratore attivo.
OpenAI è stata a lungo ispirata dal film “Lei”, in cui un utente si innamora di un assistente AI che si adatta perfettamente alle sue esigenze. Creare un tale sistema significava sviluppare non solo intelligenza, ma anche presenza. Hao ha osservato che i team interni di OpenAI hanno perseguito questo sogno nei settori di prodotto e ricerca.
"Non è possibile creare questo tipo di assistente senza dotare il modello di memoria, persistenza e autonomia", afferma.
Ma per rendere gli agenti davvero efficaci, OpenAI aveva bisogno di qualcosa in più degli algoritmi. Erano necessari nuovi tipi di dati e nuovi modi per raccoglierli. Internet, un tempo fonte abbondante di dati di formazione, è ora saturo di contenuti sintetici. Molti dei documenti ora disponibili online sono stati generati da modelli precedenti.
Questo crea un circolo di feedback in cui l'addestramento online diventa sempre meno prezioso. Per rompere il cerchio, le aziende si stanno orientando verso una raccolta dati più ristretta. Hao ha riferito che OpenAI sta esplorando dispositivi personalizzati in grado di catturare il comportamento degli utenti in tempo reale, dalle interazioni su dispositivi mobili alle conversazioni vocali fino al contesto ambientale.
"Ci sono troppi contenuti generati dall'AI online", afferma Hao. "Se vuoi dati di alta qualità, devi ottenerli direttamente dalle persone."
Il crescente flusso di contenuti generati dall'AI, dice Hao, solleva domande difficili su consenso, sorveglianza e controllo. Le persone possono davvero scegliere di non far raccogliere i propri dati? E cosa diranno di fronte ai modelli addestrati in base alle loro parole, immagini o comportamenti?
Secondo Hao, la risposta non risiede nell'ottimismo tecnologico o nelle previsioni del futuro, ma nella trasparenza. Non condivide le ideologie dominanti nell'AI, ovvero quelle che lei chiama i "boomer", che credono che l'intelligenza artificiale salverà l'umanità, o i "doomer", che temono che ci distruggerà.
"Io appartengo al campo della responsabilità", afferma. “Questi sistemi riflettono il potere istituzionale. Dobbiamo sapere come vengono prodotti e chi trae beneficio".
Le aziende devono spiegare come vengono testati i loro modelli, quali dati utilizzano e come interpretano i risultati, afferma Hao. Dovrebbero tenere traccia degli errori e condividere le scoperte in modo che altri possano esaminarle più attentamente.
Senza questo tipo di apertura, avverte Hao, l'AI rischia di diventare una black box: potente, ma non responsabile.
