I dati sono il carburante che alimenta i motori dell'AI. Tuttavia, molte aziende non stanno utilizzando appieno il tesoro di dati non strutturati che hanno a disposizione perché non sono sicure di come riempire il serbatoio.
Ecco perché le aziende che dispongono degli strumenti per elaborare dati non strutturati stanno attirando l'attenzione degli investitori. Solo il mese scorso, Salesforce ha effettuato un'importante acquisizione per potenziare la sua piattaforma Agentforce, uno dei numerosi investimenti recenti in fornitori di servizi di gestione dei dati non strutturati.
"La gen AI ha elevato l'importanza dei dati non strutturati, in particolare dei documenti, per RAG , così come per il fine-tuning degli LLM e l'analisi tradizionale per il machine learning, la business intelligence e l'ingegneria dei dati”, afferma Edward Calvesbert, Vice President of Product Management di IBM watsonx, nonché uno degli esperti di dati di IBM. “La maggior parte dei dati generati ogni giorno non è strutturata e rappresenta la più grande nuova opportunità”.
Volevamo saperne di più su ciò che i dati non strutturati hanno in serbo per l'AI, così ci siamo seduti con Calvesbert e Dave Donahue, Head of Strategy della società di data science Unstructured, che ha chiuso un round di investimento da 40 milioni di dollari con IBM, Nvidia e Databricks a marzo, per conoscere la loro opinione sull'importanza dei dati non strutturati e sulla direzione futura.
Edward Calvesbert, IBM: I dati non strutturati (linguaggio, immagini, ecc.) sono i "nuovi" dati di cui i foundation model si nutrono e che possono aiutare a interpretare, quindi sono ciò su cui ci si concentra in questo momento. Ma proprio come con i dati strutturati, i dati non strutturati devono essere governati, classificati, valutati per la qualità, filtrati per informazioni personali (PII) e contenuti discutibili e duplicati, quindi le strategie di successo applicheranno molte delle tradizionali funzionalità di gestione dei dati strutturati ai dati non strutturati.
Dave Donahue, Unstructured: i dati non strutturati non sono intrinsecamente più preziosi dei dati strutturati, ma in generale le grandi organizzazioni producono una quantità di dati non strutturati quattro volte superiore ai dati strutturati. Quindi la domanda è: vuoi usare di più i tuoi dati, e in particolare i dati non strutturati, quando implementi l'AI? La risposta dovrebbe essere un sonoro: "Sì".
Calvesbert: "Sufficientemente buono" è un bersaglio mobile e dipende dal caso d'uso. Una knowledge base per RAG, per migliorare la ricerca semantica, le domande e risposte e la sintesi per gli agenti del supporto clienti richiede che la knowledge base del documento sia completa, accurata e aggiornata. I dati per la messa a punto di un modello richiedono una serie di esempi di coppie prompt/risposta resi accurati. I documenti elaborati in database a tabelle o a grafo per guidare i casi d'uso analitici richiedono un'estrazione efficace di entità o valori. In quasi tutti i casi, i dati devono essere classificati, filtrati e governati nel contesto del ciclo di vita del caso d'uso.
Donahue: A livello aziendale o di società, i dati "buoni" sono puliti, strutturati e arricchiti. Questa pipeline di pre-elaborazione dovrebbe ridurre al minimo la perdita di informazioni tra il contenuto originale e la versione pronta per l'LLM. Unstructured consente alle aziende di trasformare i propri dati non strutturati in un formato standardizzato, indipendentemente dal tipo di file, e di arricchirli con metadati aggiuntivi. Ciò consente alle organizzazioni di mitigare le tre sfide principali con cui si scontrano quando utilizzano gli LLM, ovvero che sono congelati nel tempo, tendono a inventare le cose e inizialmente non sanno nulla della tua organizzazione.
Calvesbert: Un importante cliente delle telecomunicazioni con cui abbiamo lavorato ha iniziato con una knowledge base interna per gli operatori del supporto clienti, riducendo il tempo necessario per fornire una risposta ai clienti e ha migliorato l'accuratezza di quella risposta. Si è diffusa in modo organico, come un incendio, all'interno del call center, e a quel punto l'azienda ha dovuto fare un passo indietro e iniziare a lavorare sulla governance e sulle prestazioni dei prezzi. Internamente, abbiamo implementato un caso d'uso di automazione in cui gli esempi e le linee guida di IBM per il brand sono stati assorbiti per generare nuovi contenuti di marketing e renderli accurati, al fine di garantire qualità e tono coerenti.
Donahue: Stiamo collaborando con un'azienda globale di beni di consumo confezionati per aiutarla a sviluppare nuove idee di prodotto. Ci si potrebbe chiedere: "Cosa c'entra questo con i dati non strutturati?" Storicamente, i team di marketing e di prodotto impiegavano mesi per analizzare montagne di dati sulle vendite, informazioni sul feedback dei prodotti e dati demografici per generare nuove idee o concetti da testare con gli utenti finali in quei mercati specifici. E se potessimo contribuire a ridurre questo processo da mesi a ore? E se potessimo generare nuove idee per i prodotti che si basano sui dati e che i team possono testare rapidamente?
Questo è il potere di utilizzare i dati non strutturati per creare valore aziendale. Ora, quell'azienda di prodotti di largo consumo sta utilizzando i dati dei suoi diversi brand per sviluppare e testare nuove idee di prodotti da immettere sul mercato.
Calvesbert: Ogni azienda possiede documenti, pensiamo solo a cosa forniscono ai nuovi dipendenti per l'onboarding, e questo basta per iniziare con RAG e ricerca semantica.
Donahue L'80% dei dati di un'azienda non è strutturato, sia che si tratti di e-mail, memo, piattaforme di messaggistica interne (come Slack o Microsoft Teams) o presentazioni aziendali. La domanda è: cosa vuoi fare con quei dati? Creare efficienze per gli ingegneri che attualmente svolgono lavori simili di pulizia dei dati? Sviluppare nuove idee di prodotto sulla base dei dati di vendita e di marketing? Ci sono innumerevoli possibilità e opportunità per l'AI. Identifica un obiettivo. Identifica i dati richiesti. Inizia in piccolo.
Calvesbert: Penso che le architetture lakehouse e i formati tabellari aperti, in particolare Iceberg, siano diventati mainstream, nonché l'architettura di gestione dei dati dominante per i nuovi dati/workload. Le funzionalità vettoriali sono state fornite nativamente in molti database operativi/analitici, affinché i workload di gen AI possano essere integrati nelle applicazioni esistenti. Il settore sta iniziando a rendersi conto che RAG da solo non sarà sufficiente per determinati casi d'uso aziendali che richiedono una contestualizzazione aggiuntiva basata su relazioni non ovvie (GraphRAG) e una maggiore precisione dei record transazionali (SQL-RAG). I clienti si stanno anche rendendo conto che implementare un modello di autorizzazione degli utenti che rispetti i controlli di accesso presenti nei sistemi di gestione dei contenuti aziendali è una sfida critica da superare per scalare la gen AI in tutta l'azienda.
Donahue: Stiamo iniziando a vedere i team di ingegneria di data science e machine learning lavorare più a stretto contatto con i team di data engineering. I team di data engineering si sono sviluppati attorno all'ascesa delle applicazioni di data warehousing e business intelligence negli ultimi dieci anni e storicamente hanno operato nel mondo di SQL, dei database strutturati e dei processi di business analytics progettati per gli analisti di dati e i vertici aziendali. Via via che le aziende si sono affacciate agli LLM, è esploso l'interesse per i grandi volumi di dati pre-elaborati. Tuttavia, questi consumatori tendono a operare nel mondo di Python, dei database vettoriali e delle interfacce utente veloci e usa e getta. Col tempo, ci aspettiamo che i team di data engineering maturi si assumano sempre più responsabilità nel fornire ai team di gen AI dati enterprise-ready.
Calvesbert: Penso che i clienti cerchino di semplificare i propri patrimoni di dati e i costi e rischi associati. A tal fine, i database multi-modello e le architetture lakehouse multi-engine continuano a competere con successo per i workload con database in silos, poiché i clienti cercheranno di consolidare su un numero ridotto di piattaforme dati. I modelli text-to-SQL stanno diventando molto validi, il che ridurrà drasticamente la barriera all'utilizzo dei dati per un'ampia gamma di casi d'uso che vanno oltre la business intelligence.
Allo stesso modo, la proliferazione degli agenti integrerà dati in quantità molto elevate e in una varietà di workflow automatizzati. Alcuni di questi workflow agentici rivoluzioneranno molte attività dei knowledge worker e creeranno nuove ed entusiasmanti opportunità. Immaginiamo di elaborare una conversazione interna o esterna con i clienti e di mapparla immediatamente con i prodotti in un catalogo o con un record di opportunità in un sistema CRM, compresa una valutazione automatica dello stato di avanzamento e della propensione alla chiusura.
Donahue: A differenza del moderno stack di dati, in cui Snowflake, BigQuery e Databricks hanno stabilito la "data gravity" nel settore del data warehousing, non abbiamo ancora fatto lo stesso per i dati non strutturati. E poiché sono quattro volte più voluminosi dei dati strutturati e crescono esponenzialmente ogni anno, la posta in gioco non potrebbe essere più alta per la nuova generazione di soluzioni di storage per gli LLM. La giuria deve ancora pronunciarsi su quale combinazione di vettori, grafici, oggetti o altri tipi di storage diventerà dominante e quali fornitori prevarranno in ciascuna categoria, ma i vincitori saranno probabilmente chiari nei prossimi 18-24 mesi.