Strumenti di preparazione dati open source per grandi modelli linguistici

Un dipendente parla con una collega indicando i dati su un grafico

I modelli linguistici di grandi dimensioni (LLM) open source sono molto apprezzati perché consentono a chiunque di modificarli e utilizzarli più facilmente. Ma i benefici dell'open source si perdono se preparare i dati necessari per addestrare e perfezionare i modelli è costoso e richiede tempo.

"Ogni conversazione sull'AI inizia con i modelli e, in realtà, termina con i dati", afferma Petros Zerfos, Principal Research Scientist of Data Engineering for Generative AI presso IBM Research. Per le aziende, ciò spesso significa che i team di AI dedicano molto più tempo a preparare i dati per i modelli che sui modelli stessi, afferma Zerfos.

La soluzione? Alcune grandi aziende tecnologiche stanno rendendo open source gli strumenti di preparazione dei dati. Ad esempio, Data Prep Kit di IBM e NVIDIA NeMo Curator rendono più facile per le aziende di tutte le dimensioni addestrare e mettere a punto gli LLM, permettendo loro di ottenere valore dalle applicazioni AI in modo più rapido e conveniente.

La sfida dei dati

Mentre le aziende si affannano per sviluppare e implementare LLM e applicazioni AI, uno dei maggiori colli di bottiglia è la preparazione dei dati. In realtà, il 79% dei team di AI aziendale intervistati nel rapporto 2023 di Gartner Explore Data-Centric AI Solutions to Streamline AI Development ha affermato che il compito strategico più comune che svolgono è la loro preparazione.

La preparazione dei dati avviene generalmente durante due fasi chiave nello sviluppo degli LLM. Nella fase di pre-addestramento, i modelli vengono addestrati con centinaia di terabyte di dati in modo che possano comprendere un inglese semplice e acquisire sufficienti conoscenze e sfumature in vari ambiti. Secondo Zerfos, pre-addestrare i modelli da zero richiede centinaia di persone e milioni di dollari, quindi solo aziende molto grandi (o poche startup ben capitalizzate) hanno le risorse per farlo.

Nella seconda fase della preparazione dei dati, i team di AI utilizzano volumi più piccoli di dati mirati per mettere a punto gli LLM, così da poter generare testi più accurati e pertinenti. Alcune aziende molto grandi con risorse sufficienti portano a termine entrambe le fasi, ma la maggior parte si concentra sulla preparazione dei dati per mettere a punto i modelli già sviluppati da altri.

Strumenti di preparazione dei dati open source

Diverse aziende, tra cui IBM e NVIDIA, hanno recentemente open source strumenti per aiutare gli sviluppatori ad affrontare l'arduo compito della preparazione dei dati non strutturati. Data Prep Kit di IBM è una libreria di moduli che uno sviluppatore può inserire nella sua pipeline per rendere accurati i dati nella fase di preformazione o di messa a punto.  I moduli lavorano con documenti sorgente contenenti dati non strutturati come testo (ad esempio, un PDF) e codice (HTML) e possono essere utilizzati per annotare, trasformare e filtrare i dati.

Il team IBM ha reso questi strumenti open source per renderli accessibili a imprese di tutte le dimensioni, afferma Zerfos. "Che l'esecuzione avvenga su laptop, server o cluster, lo sviluppatore non deve fare nulla di speciale", afferma. "Può anche effettuarla su qualsiasi infrastruttura cloud."

Dal suo lancio a maggio 2024, gli sviluppatori hanno sperimentato il framework Data Prep Kit e i suoi moduli, accessibili tramite GitHub. Diversi membri dell'AI Alliance, una comunità che include aziende tecnologiche grandi e piccole, hanno anche iniziato a testare come alcuni moduli possano semplificare e accelerare l'addestramento e la rifinitura, afferma Zerfos.

Il gigante dell'hardware e software dell'AI NVIDIA ha recentemente reso open source una serie di moduli di preparazione dei dati per migliorare l'accuratezza dei modelli di AI generativa . NVIDIA NeMo Curator elabora testo, immagini e dati video su larga scala. Fornisce inoltre pipeline precostituite per generare dati sintetici al fine di personalizzare e valutare i sistemi di AI generativa.

Uno dei compiti che NeMo Curator di NVIDIA promette di velocizzare è la deduplicazione. Quando si scaricano dati da fonti di web crawl massicce come Common Crawl, è tipico che il modello incontri sia documenti che sono copie esatte l'uno dell'altro sia documenti quasi duplicati. 

Utilizzando una versione in arrivo di NeMo Curator, gli sviluppatori dello strumento affermano che le organizzazioni potranno completare questo compito di deduplicazione 20 volte più velocemente e cinque volte a meno rispetto a quanto facciano attualmente. 

Di certo, rendere open source questi strumenti li rende più ampiamente accessibili. Tuttavia, le Enterprise AI teams necessitano ancora di un certo livello di competenza e formazione per generare valore da questi strumenti, avvertono esperti come Mark A. Beyer, Distinguished VP Analyst di Gartner.

"Dare semplicemente a qualcuno uno strumento senza guida, metodologie e funzioni a supporto inizia a trasformarsi in sperimentazione", afferma. "Ci vuole da quattro a cinque volte più tempo rispetto al semplice utilizzo degli strumenti esistenti."

In futuro, però, Ben Lorica, conduttore del podcast The Data Exchange , vede un grande potenziale per gli strumenti di preparazione dei dati, poiché le aziende aumentano l'uso dei dati multimodali, anche se è ancora agli inizi.

"Poiché le tue applicazioni si basano su una quantità sempre maggiore di video e audio, oltre che sul testo, avrai bisogno di uno strumento che ti consenta di scalare e utilizzare set di dati più grandi e di utilizzare al meglio qualsiasi hardware tu abbia a disposizione", afferma. "Soprattutto nel mondo degli agenti, i dati saranno un elemento di differenziazione. Vuoi accedere ai dati giusti al momento giusto.”