Superare le 3 sfide principali dei dati non strutturati

Rendering 3D di piattaforme quadrate bianche galleggianti in una griglia con sopra un cubo blu

Autori

Dinesh Nirmal

SVP

IBM Software

Alice Gomstyn

Staff Writer

IBM Think

I dati attendibili sono fondamentali per aiutare le aziende ad avere successo nelle loro iniziative di AI generativa. Le aziende faticano a sfruttare quella che potrebbe essere una potente fonte di insight: i dati non strutturati. Circa il 90% dei dati prodotti dalle aziende non è strutturato, con informazioni preziose memorizzate in e-mail, documenti PDF, file video e altri formati.1

La buona notizia è che approcci e soluzioni in evoluzione permettono alle aziende di organizzare, consultare e ricavare informazioni dai propri dati non strutturati. Una delle autrici di Think, Alice Gomstyn, ha incontrato Dinesh Nirmal, Senior Vice President di IBM Software, per discutere di come le aziende possono sbloccare il potenziale delle raccolte di dati un tempo considerate fuori dalla loro portata.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Gomstyn: Quali sfide devono affrontare le organizzazioni che desiderano utilizzare i propri dati non strutturati?

Nirmal: Le sfide principali legate ai dati non strutturati sono tre. La scalabilità è la prima. Come si fa a scalare e come si governa il processo? La seconda è: come ci si assicura che l'AI generativa offra prestazioni e precisione? E la terza è come correlare i dati strutturati e non strutturati per ricavare valore.

Gomstyn: Puoi approfondire la sfida della scalabilità e cosa occorre fare per affrontarla?

Nirmal: I dati non strutturati sono più complessi, nel senso che possono avere centinaia di campi e alcuni di questi potrebbero essere campi massivi o campi sicuri. Quando si inseriscono quei documenti, è fondamentale che tale inserimento sia regolamentato e che i dati siano memorizzati in un archivio controllato, come un data lakehouse.

È inoltre necessaria la governance nella pipeline di dati. Come si fa ad aggiungere observability e monitoraggio? Se si verifica una deriva o un cambiamento nella pipeline, come si fa a identificarli rapidamente e a risolverli? Queste pipeline possono essere lunghe e complesse ed è opportuno assicurarsi di ottenere risultati, tempi di esecuzione, prestazioni e accuratezza corretti in ogni fase. Sono necessari strumenti precisi per assicurarsi di poter costruire, governare e osservare le pipeline.

Per le aziende, si tratta anche di sicurezza. La sicurezza dei dati diventa un elemento critico per assicurarsi che non perdano quei dati. Disponiamo di strumenti di sicurezza dei dati per assicurarci che i dati siano crittografati. Pertanto, con la crescita, è fondamentale garantire che la governance e la sicurezza adottate per i dati strutturati vengano estese anche ai dati non strutturati.

Gomstyn: E per quanto riguarda la seconda sfida fondamentale: ottenere prestazioni elevate dai modelli di AI generativa?

Nirmal: C'è un'enorme opportunità in questo ambito, perché l'AI generativa può avere successo solo se forniamo a questi modelli dati governati e affidabili per l'addestramento e la generazione di prompt.

Gli strumenti di governance consentono anche l'accesso ai dati. Utilizzando strumenti di governance come i cataloghi di dati, è possibile mettere i dati non strutturati a disposizione dei data scientist e dei prompt engineer in modo che possano effettuare il prompt tune dei loro modelli utilizzando i dati non strutturati.

Governance e innovazione vanno di pari passo. Se si vuole davvero innovare per fornire un self-service dei dati, è necessario che sia in atto una governance che consenta di gestire tale self-service. Dal punto di vista dei prodotti di dati, rendere disponibili i dati self-service è il primo elemento a cui si deve dare priorità.

Mixture of Experts | 28 agosto, episodio 70

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Gomstyn: Come affronti la terza sfida della correlazione tra dati strutturati e dati non strutturati?

Nirmal: Il landscape attuale è che se si dispone di dati non strutturati sotto forma di documento, è necessario dividere o suddividere il documento in più parti e memorizzarlo come embedding all'interno di un database vettoriale.

Il problema è che si perde accuratezza perché non si sa esattamente dove si stanno suddividendo i dati. Supponiamo che il taglio avvenga a metà di una tabella. Quando la si recupera, si ottiene solo metà della tabella, e l'accuratezza va persa.

Cosa possiamo fare? Non solo memorizziamo i dati in un database vettoriale, ma prendiamo anche gli aspetti transazionali di quel documento e li inseriamo in un database transazionale. E quando c'è una query in linguaggio naturale, si confrontano entrambe le parti per dire, come faccio a raccogliere i dati per ottenere maggiore precisione e prestazioni? È qui che entrano in gioco RAG SQL o Graph RAG: puoi usarli per ottenere un livello di precisione più elevato. Questo è il motivo per cui occorre assicurarsi di correlare i dati tra il database transazionale e ciò che è memorizzato su un database vettoriale.

Gomstyn: Quali sono le competenze critiche che i leader IT devono sviluppare per gestire efficacemente i dati non strutturati?

Nirmal: L'ingegneria dei dati è l'elemento più importante quando si tratta di dati non strutturati. Nel contesto dei dati strutturati, è una disciplina ben organizzata, ma nel caso dei dati non strutturati non ha ancora preso piede, a causa della quantità enorme di dati presenti.

Ma ora anche la governance, la sicurezza e tutti questi aspetti stanno entrando nel mondo dei dati non strutturati. Abbiamo bisogno di data engineer che elaborino concretamente i dati, rendendoli disponibili tramite pipeline. È necessario che creino prodotti di dati basati su dati non strutturati e che rendano disponibili strumenti self-service per ogni data scientist e data engineer. Le competenze utilizzate dai data engineer nel contesto dei dati strutturati possono essere applicate anche ai dati non strutturati, semplicemente su una scala molto, molto più ampia.

Gomstyn: Come si misura il successo dei progetti pilota di dati non strutturati?

Nirmal: Il vero ritorno sull'investimento arriva quando c'è valore per l'utente finale nell'azienda. Prendiamo un esempio: chiamo il mio gestore telefonico e parlo con un operatore. Faccio una domanda, ma prima di rispondere lui deve cercare l'informazione.

Con l'AI generativa, invece, posso fare tutto online. Posso semplicemente fare una semplice domanda a un assistente o a un chatbot, che può accedere a un formato di dati non strutturato come un documento di fatturazione. Entro 15 secondi, ho una risposta che riassume la mia fattura o qualcosa sul mio account. Pensa al tempo che ho risparmiato. Non avevo bisogno di aspettare 15 minuti che qualcuno rispondesse a una chiamata. Ho tutto a portata di mano. L'AI generativa ha reso possibile tutto questo per me, come utente finale.

È tutta una questione di produttività, risparmio di tempo e ottimizzazione, che l'AI generativa sta favorendo, soprattutto per quanto riguarda i dati non strutturati.

Questa intervista è stata modificata e condensata per motivi di chiarezza e lunghezza.

Soluzioni correlate
Software e soluzioni per database

Usa le soluzioni di database di IBM per soddisfare varie esigenze di workload nell'hybrid cloud.

Esplora le soluzioni di database
Database cloud-native con IBM Db2

Esplora IBM DB2, un database relazionale che offre prestazioni, scalabilità e affidabilità elevate per l'archiviazione e la gestione di dati strutturati. È disponibile come SaaS su IBM Cloud o in self-hosting.

Scopri Db2
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fasi successive

Usa le soluzioni di database di IBM per soddisfare varie esigenze di workload nel cloud ibrido.

Esplora le soluzioni di database Scopri IBM Db2