L'importanza dell'integrazione dei dati e della data ingestion per l'AI aziendale

Donna scrive delle idee su dei post-it insieme a un collega

L'emergere dell'AI generativa ha spinto diverse importanti aziende a limitarne l'uso a causa della cattiva gestione dei dati interni sensibili. Secondo la CNN, alcune aziende hanno imposto divieti interni agli strumenti di AI generativa mentre cercano di comprendere meglio la tecnologia e molte hanno anche bloccato l'uso interno di ChatGPT.

Le aziende accettano ancora spesso il rischio di utilizzare dati interni quando esplorano modelli linguistici di grandi dimensioni (LLM) perché questi dati contestuali sono ciò che consente agli LLM di passare dalla conoscenza generica a quella specifica del dominio. Nell'AI generativa o nel ciclo di sviluppo dell'AI tradizionale, la data ingestion serve come punto di ingresso. Qui, i dati non elaborati che sono personalizzati in base alle esigenze di un'azienda possono essere raccolti, pre-elaborati, mascherati e trasformati in un formato adatto per LLM o altri modelli. Attualmente, non esiste un processo standardizzato per superare le sfide della data ingestion, ma l'accuratezza del modello dipende da questo.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e altro con la newsletter Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

4 rischi dei dati inseriti in modo errato

  1. Generazione di misinformazione: quando un LLM viene formato su dati contaminati (dati che contengono errori o imprecisioni), può generare risposte errate, portando a un processo decisionale imperfetto e a potenziali problemi a cascata.
  2. Aumento della varianza: la varianza misura la coerenza. L'insufficienza dei dati può portare a risposte variabili nel tempo, o a outlier fuorvianti, in particolare per quanto riguarda i set di dati più piccoli. L'elevata varianza in un modello può indicare che il modello funziona con i dati di addestramento ma essere inadeguato per i casi d'uso del settore nel mondo reale.
  3. Ambito di dati limitato e risposte non rappresentative: quando le fonti di dati sono restrittive, omogenee o contengono duplicati errati, errori statistici come la distorsione del campionamento possono distorcere tutti i risultati. Ciò può far sì che il modello escluda dalla conversazione intere aree, reparti, dati demografici, settori o fonti.
  4. Sfide nella rettifica dei dati distorti: se i dati sono distorti fin dall'inizio, "l'unico modo per rimuovere retroattivamente una parte di quei dati è riaddestrare l'algoritmo da zero". È difficile per i modelli LLM "disimparare" risposte derivanti da dati non rappresentativi o contaminati una volta che questi sono stati vettorializzati. Questi modelli tendono a rafforzare la loro comprensione sulla base di risposte assimilate in precedenza.

La data ingestion deve essere eseguita correttamente fin dall'inizio, poiché una cattiva gestione può portare a una serie di nuovi problemi. Il lavoro di base sui dati di addestramento in un modello AI è paragonabile al pilotaggio di un aereo. Se l'angolo di decollo è sbagliato anche di un solo grado, potresti atterrare su un continente completamente diverso da quello previsto.

L'intera pipeline di AI generativa si basa sulle pipeline di dati che la potenziano, il che rende imperativo prendere le precauzioni corrette.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

4 componenti chiave per garantire una data ingestion affidabile

  1. Governance e qualità dei dati: la qualità dei dati significa garantire la sicurezza delle fonti di dati, mantenere dati olistici e fornire metadati chiari. Ciò può comportare anche l'utilizzo di nuovi dati tramite metodi come il web scraping o il caricamento. La governance dei dati è un processo continuo nel ciclo di vita dei dati per contribuire a garantire la conformità alle leggi e alle best practice aziendali.
  2. Integrazione dei dati: questi strumenti consentono alle aziende di combinare eterogenee fonti di dati in un unico luogo sicuro. Un metodo diffuso è l'estrazione, il caricamento e la trasformazione (ELT). In un sistema ELT, i set di dati vengono selezionati da magazzini in silos, trasformati e quindi caricati in pool di dati di origine o di destinazione. Gli strumenti ELT come IBM DataStage facilitano trasformazioni rapide e sicure attraverso motori di elaborazione parallela. Nel 2023, l'azienda media riceve centinaia di flussi di dati eterogenei, il che rende le trasformazioni dei dati efficienti e accurate cruciali per lo sviluppo di modelli AI tradizionali e nuovi.
  3. Pulizia e pre-elaborazione dei dati: ciò include la formattazione dei dati per soddisfare specifici requisiti di formazione LLM, strumenti di orchestrazione o tipi di dati. I dati di testo possono essere suddivisi in blocchi o tokenizzati mentre i dati di imaging possono essere memorizzati come embedding. Trasformazioni complete possono essere eseguite utilizzando strumenti di integrazione dei dati. Potrebbe inoltre essere necessario manipolare direttamente i dati non elaborati eliminando i duplicati o modificando i tipi di dati.
  4. Data storage: dopo la pulizia e l'elaborazione dei dati, sorge la sfida del data storage. La maggior parte dei dati è ospitata sul cloud o on-premise, il che richiede alle aziende di prendere decisioni su dove memorizzare i propri dati. È importante fare attenzione all'uso di LLM esterni per la gestione di informazioni sensibili come dati personali, documenti interni o dati dei clienti. Tuttavia, gli LLM svolgono un ruolo critico nella messa a punto o nell'implementazione di un approccio basato sulla Retrieval-Augmented Generation (RAG). Per mitigare i rischi, è importante eseguire il maggior numero possibile di processi di integrazione dei dati sui server interni. Una soluzione potenziale è utilizzare opzioni di tempo di esecuzione remoto.

Inizia la data ingestion con IBM

IBM DataStage semplifica l'integrazione dei dati combinando vari strumenti, consentendo di estrarre, organizzare, trasformare e memorizzare facilmente i dati necessari per i modelli di addestramento AI in un ambiente hybrid cloud. I professionisti dei dati di tutti i livelli di competenza possono interagire con lo strumento utilizzando GUI no-code o accedere alle API con codice personalizzato guidato.

La nuova opzione di tempo di esecuzione DataStage as a Service Anywhere offre la flessibilità necessaria per eseguire le trasformazioni dei dati. Ti consente di utilizzare il motore parallelo da qualsiasi luogo, offrendoti un controllo senza precedenti sulla sua posizione. DataStage as a Service Anywhere si manifesta come un container leggero, che consente di eseguire tutte le funzionalità di trasformazione dei dati in qualsiasi ambiente. Questo ti permette di evitare molte delle insidie di una scarsa data ingestion mentre esegui l'integrazione, la pulizia e la pre-elaborazione dei dati all'interno del tuo cloud privato virtuale. Con DataStage, mantieni il controllo completo sulla sicurezza, la qualità dei dati e l'efficacia, soddisfacendo tutte le tue esigenze di dati per le iniziative di AI generativa.

Sebbene non ci siano praticamente limiti a ciò che può essere ottenuto con l'AI generativa, ci sono limiti ai dati utilizzati da un modello e quei dati possono anche fare la differenza.

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data