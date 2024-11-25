Diverse aziende, tra cui IBM e NVIDIA, hanno recentemente open source strumenti per aiutare gli sviluppatori ad affrontare l'arduo compito della preparazione dei dati non strutturati. Data Prep Kit di IBM è una libreria di moduli che uno sviluppatore può inserire nella sua pipeline per rendere accurati i dati nella fase di preformazione o di messa a punto. I moduli lavorano con documenti sorgente contenenti dati non strutturati come testo (ad esempio, un PDF) e codice (HTML) e possono essere utilizzati per annotare, trasformare e filtrare i dati.

Il team IBM ha reso questi strumenti open source per renderli accessibili a imprese di tutte le dimensioni, afferma Zerfos. "Che l'esecuzione avvenga su laptop, server o cluster, lo sviluppatore non deve fare nulla di speciale", afferma. "Può anche effettuarla su qualsiasi infrastruttura cloud."

Dal suo lancio a maggio 2024, gli sviluppatori hanno sperimentato il framework Data Prep Kit e i suoi moduli, accessibili tramite GitHub. Diversi membri dell'AI Alliance, una comunità che include aziende tecnologiche grandi e piccole, hanno anche iniziato a testare come alcuni moduli possano semplificare e accelerare l'addestramento e la rifinitura, afferma Zerfos.

Il gigante dell'hardware e software dell'AI NVIDIA ha recentemente reso open source una serie di moduli di preparazione dei dati per migliorare l'accuratezza dei modelli di AI generativa . NVIDIA NeMo Curator elabora testo, immagini e dati video su larga scala. Fornisce inoltre pipeline precostituite per generare dati sintetici al fine di personalizzare e valutare i sistemi di AI generativa.

Uno dei compiti che NeMo Curator di NVIDIA promette di velocizzare è la deduplicazione. Quando si scaricano dati da fonti di web crawl massicce come Common Crawl, è tipico che il modello incontri sia documenti che sono copie esatte l'uno dell'altro sia documenti quasi duplicati.

Utilizzando una versione in arrivo di NeMo Curator, gli sviluppatori dello strumento affermano che le organizzazioni potranno completare questo compito di deduplicazione 20 volte più velocemente e cinque volte a meno rispetto a quanto facciano attualmente.

Di certo, rendere open source questi strumenti li rende più ampiamente accessibili. Tuttavia, le Enterprise AI teams necessitano ancora di un certo livello di competenza e formazione per generare valore da questi strumenti, avvertono esperti come Mark A. Beyer, Distinguished VP Analyst di Gartner.

"Dare semplicemente a qualcuno uno strumento senza guida, metodologie e funzioni a supporto inizia a trasformarsi in sperimentazione", afferma. "Ci vuole da quattro a cinque volte più tempo rispetto al semplice utilizzo degli strumenti esistenti."

In futuro, però, Ben Lorica, conduttore del podcast The Data Exchange , vede un grande potenziale per gli strumenti di preparazione dei dati, poiché le aziende aumentano l'uso dei dati multimodali, anche se è ancora agli inizi.

"Poiché le tue applicazioni si basano su una quantità sempre maggiore di video e audio, oltre che sul testo, avrai bisogno di uno strumento che ti consenta di scalare e utilizzare set di dati più grandi e di utilizzare al meglio qualsiasi hardware tu abbia a disposizione", afferma. "Soprattutto nel mondo degli agenti, i dati saranno un elemento di differenziazione. Vuoi accedere ai dati giusti al momento giusto.”