Mentre l'intelligenza artificiale rimodella i settori di tutto il mondo, gli sviluppatori si trovano ad affrontare una sfida inaspettata: la carenza di dati reali di alta qualità per addestrare i loro modelli sempre più sofisticati. Ora, una possibile soluzione sta emergendo da una fonte improbabile, dati che nella realtà non esistono affatto.
I dati sintetici, informazioni generate artificialmente progettate per imitare scenari reali, stanno rapidamente guadagnando terreno nello sviluppo dell'AI. Promettono di superare i colli di bottiglia dei dati, affrontare i problemi di privacy e ridurre i costi. Tuttavia, con l'evoluzione del campo, emergono domande sui limiti e sull'impatto reale.
Newsletter di settore
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
I giganti della tecnologia stanno scommettendo molto sui dati sintetici. NVIDIA ha recentemente annunciato Nemotron-4 340B, una famiglia di modelli aperti progettata per generare dati sintetici per addestrare i modelli linguistici di grandi dimensioni (LLM) in vari settori. Questa mossa affronta una sfida critica nello sviluppo dell'AI: il costo proibitivo e la difficoltà nell'accesso a set di dati robusti.
"I dati di addestramento di alta qualità giocano un ruolo critico nelle prestazioni, nell'accuratezza e nella qualità delle risposte di un LLM personalizzato", NVIDIA ha scritto sul suo blog. La famiglia Nemotron-4 340B include modelli base, di istruzione e ricompensa che costituiscono una pipeline per generare e perfezionare dati sintetici, potenzialmente accelerando lo sviluppo di potenti LLM specifici per dominio.
Akash Srivastava, ricercatore IBM®, spiega che nel contesto dei modelli linguistici di grandi dimensioni, i dati sintetici sono spesso generati da un modello AI per addestrarne o personalizzarne un altro. "I ricercatori e gli sviluppatori del settore utilizzano questi modelli per generare dati per compiti specifici", osserva Srivastava.
Gli investigatori del MIT-IBM Watson AI Lab e di IBM Research hanno recentemente introdotto un nuovo approccio per migliorare gli LLM utilizzando dati sintetici. Il metodo, chiamato LAB (Allineamento su larga scala per chatbot), mira a ridurre la dipendenza da annotazioni umane e da modelli AI proprietari come GPT-4.
LAB impiega un processo di generazione di dati sintetici guidati dalla tassonomia e un framework multifasico. I ricercatori riferiscono che "i modelli addestrati da LAB possono raggiungere prestazioni competitive in diversi benchmark rispetto ai modelli addestrati con dati sintetici tradizionali annotati dall'uomo o generati da GPT-4".
Per dimostrare l'efficacia di LAB, il team ha creato due modelli, LABRADORITE-13B e MERLINITE-7B, che secondo quanto riportato hanno superato altre versioni finemente calibrate degli stessi modelli base su diverse metriche chiave. I ricercatori hanno utilizzato il modello open source Mixtral per generare dati di addestramento sintetici, offrendo potenzialmente un approccio più conveniente per migliorare gli LLM.
La qualità dei dati sintetici è cruciale per la loro efficacia. Raul Salles de Padua, Direttore dell'Ingegneria, AI e Quantum presso Multiverse Computing, spiega: "La fedeltà dei dati sintetici viene calcolata confrontandoli con dati reali tramite test statistici e analitici. Ciò include una valutazione di quanto bene i dati sintetici preservino le proprietà statistiche chiave, come medie, varianze e correlazioni tra variabili".
Nonostante le promesse, i dati sintetici non sono esenti da sfide. De Padua sottolinea: "La sfida con i dati sintetici è creare dati che siano allo stesso tempo utili e rispettosi della privacy. Senza queste salvaguardie, i dati sintetici potrebbero rivelare dettagli personali, portando potenzialmente al furto di identità, alla discriminazione o ad altre violazioni della privacy".
Una recente ricerca ha scoperto le potenziali insidie di un eccessivo affidamento sui dati sintetici. Uno studio recente pubblicato su Nature ha rivelato un fenomeno chiamato "collasso del modello". Quando i modelli AI vengono addestrati ripetutamente su testi generati dall'AI, i loro output possono diventare sempre più insensati, sollevando preoccupazioni sulla sostenibilità a lungo termine dell'uso di dati sintetici, soprattutto man mano che i contenuti generati dall'AI diventano sempre più diffusi online.
Anche le considerazioni etiche sono molto rilevanti. De Padua avverte del "rischio che i dati sintetici non rappresentino accuratamente la diversità della popolazione reale, producendo potenziali distorsioni nei modelli che non riescono a funzionare in modo equo tra i diversi gruppi demografici".
In applicazioni critiche come la sanità e i veicoli autonomi, i dati sintetici possono svolgere un ruolo fondamentale. De Padua osserva: "In ambito sanitario, i dati sintetici possono integrare i set di dati reali, fornendo una gamma più ampia di scenari per i modelli di addestramento, con conseguenti migliori funzionalità diagnostiche e predittive". Per i veicoli autonomi, aggiunge: "Utilizzando dati sintetici per l'augmentazione, i modelli possono essere esposti a una gamma più ampia di condizioni e casi limite che potrebbero non essere presenti nel set di dati originale".
Guardando al futuro, de Padua ritiene che i dati sintetici probabilmente integreranno piuttosto che sostituire i dati reali nell'addestramento dell'AI. "L'accuratezza e la rappresentatività dei dati sintetici sono fondamentali. I progressi tecnologici negli algoritmi di generazione dei dati giocheranno un ruolo significativo nell'aumentare l'affidabilità dei dati sintetici", spiega.
Con l'aumento dell'integrazione dell'AI nella nostra vita quotidiana, dalla diagnostica sanitaria alle auto a guida autonoma, l'equilibrio tra dati sintetici e dati reali nella formazione dell'AI sarà fondamentale. La sfida per gli sviluppatori dell'AI in futuro sarà sfruttare i benefici dei dati sintetici mitigando i rischi.
"Siamo a un punto critico nello sviluppo dell'AI", afferma Srivastava. "Trovare il giusto equilibrio tra dati sintetici e reali determinerà il futuro dell'AI: le sue funzionalità, i suoi limiti e, in ultima analisi, il suo impatto sulla società".
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.