IBM watsonx.data e Unstructured: trasformare i dati non strutturati in carburante pronto per l'AI

Illustrazione digitale con sfondo sbiadito dal nero al viola con dashboard sul lato destro con finestre, un calendario e icone

Autore

Edward Calvesbert

Vice President, Product Management - watsonx.data

IBM

Brian Raymond

Founder and CEO of Unstructured

Siamo lieti di annunciare una nuova partnership tra IBM e Unstructured, un'azienda del portfolio di IBM Ventures. Insieme, stiamo affrontando uno degli ostacoli più significativi alla scalabilità dell'AI aziendale: la preparazione di dati non strutturati per l'AI generativa.

La sfida dei dati non strutturati

Circa l'80% dei dati aziendali non è strutturato: risiede in PDF, e-mail, piattaforme di collaborazione e archivi di documenti. Eppure meno dell'1% di questi dati è in un formato adatto al consumo diretto da parte dell'AI.ve Questa lacuna rappresenta sia un'enorme opportunità che una sfida critica per le organizzazioni che intendono ampliare le iniziative di AI.​​​​​​

​​​​Gli approcci tradizionali alla preparazione dei dati non strutturati stanno frenando le aziende. Le pipeline manuali richiedono 6-12 mesi per essere costruite e rimangono fragili, danneggiandosi con ogni nuovo formato di documento o modifica del sistema di origine. I team di progettazione dedicano tempo prezioso all'integrazione dei dati piuttosto che all'innovazione dell'AI. Senza una struttura e una coerenza adeguate, i modelli AI forniscono risultati inaffidabili, minando la fiducia e ritardando il time to value.​​​

​​​​IBM® watsonx.data affronta questa sfida in quanto unico data lakehouse ibrido e aperto del settore predisposto per AI e analytics. Semplifica l'accesso, la preparazione e la governance dei dati strutturati e non strutturati, aiutando le organizzazioni a creare una base di dati affidabile per l'AI generativa su larga scala.​​​​​

Il vantaggio “non strutturato” di watsonx.data

Attraverso questa partnership, Unstructured estende il potere di watsonx.data per accedere e trasformare dati non strutturati in formati pronti per l'AI, alimentando un'AI generativa affidabile, scalabile e attendibile.

Connettività completa e supporto dei formati​​​

Unstructured fornisce più di 30 connettori precostituiti a fonti di dati aziendali tra cui SharePoint, Google Drive, Salesforce, Confluence, Box e Dropbox. Con il supporto per oltre 70 tipi di file, dai PDF con layout complessi alle immagini scansionate, e-mail e documenti Microsoft Office, le organizzazioni possono accedere e trasformare il loro patrimonio completo di dati.​​​

​​​​A differenza degli strumenti di estrazione del testo di base, la comprensione intelligente dei documenti di Unstructured preserva elementi critici come tabelle, gerarchie e struttura semantica, assicurando che i modelli AI ricevano dati contestualmente ricchi anziché solo testo grezzo.​​​​​

Sviluppo accelerato della pipeline​​​

Un builder di workflow visivi no-code consente ai team aziendali e di dati di progettare e gestire pipeline di dati senza richiedere risorse specializzate. Per le organizzazioni con team di sviluppo, un'API completa fornisce opzioni di controllo e personalizzazione a livello di codice.​​​

​​​​I processi di sincronizzazione incrementale automatica inseriscono solo documenti nuovi e modificati, riducendo i costi di elaborazione e mantenendo aggiornate le applicazioni AI. L'orchestrazione multi-sorgente coordina i flussi di dati su più sistemi contemporaneamente, eliminando il sovraccarico di coordinamento manuale.​​​

Governance e conformità di livello aziendale

Unstructured è conforme a SOC 2 Tipo II, HIPAA e GDPR e soddisfa i rigorosi standard di sicurezza e privacy richiesti dalle organizzazioni IT aziendali. Insieme a watsonx.data, la soluzione fornisce il controllo della versione, il tracciamento del data lineage e il controllo granulare degli accessi che rispettano le autorizzazioni del sistema di origine in tutta la pipeline di dati.​​​

Ottimizzato per i workflow AI​​​

Unstructured offre dati semanticamente arricchiti e adeguatamente suddivisi, ottimizzati per le moderne architetture di AI:​​​

  • Retrieval-augmented generation (RAG):​​ il chunking contestualmente intelligente migliora la precisione del recupero e la qualità della risposta​​​
  • Integrazione del database vettoriale:​​ la generazione automatica di embedding semplifica l'inserimento nel database vettoriale​​​
  • Sistemi agentici: fornisce un contesto strutturato e attuabile che consente agli agenti autonomi di ragionare, pianificare e interagire con i dati in modo più efficace​​​​​
  • AI multimodale: elaborazione coordinata di contenuti di testo e immagini​​​

Con watsonx.data e Unstructured, i team possono agire rapidamente con pipeline pronte per la produzione​​combinando​​​​ velocità, flessibilità e predisposizione per l'AI in un'unica soluzione integrata.

Insieme è meglio: alimentare il motore watsonx

Se watsonx.data è il motore di dati su cui si basano le applicazioni di AI generativa, mentre Unstructured fornisce il carburante. Insieme, watsonx.data e Unstructured forniscono dati non strutturati pronti per AI e consentono i pattern di retrieval-augmented generation che migliorano l'accuratezza e l'affidabilità dell'AI. 

Le aziende possono accelerare il time to value sostituendo la preparazione manuale dei documenti con un'elaborazione automatizzata e intelligente. Le policy di governance fluiscono dai sistemi di origine dei documenti fino alle applicazioni AI, migliorando la fiducia e la trasparenza in ogni fase. Eliminando il collo di bottiglia della preparazione dei dati non strutturati e fornendo una base di dati con accesso, preparazione e governance unificati ai dati, le organizzazioni possono finalmente sbloccare tutto il potenziale dei loro contenuti non strutturati per potenziare un'IA affidabile e di livello aziendale.

Per vedere watsonx.data e Unstructured in azione, partecipa al nostro webinar o fissa un appuntamento. Insieme, ti aiuteremo a passare dal​dedicare tempo alla preparazione di dati disordinati​e non strutturati​​​​all'accelerazione degli agenti AI e alle applicazioni di livello aziendale, basate sui dati predisposti per l'AI, su larga scala.​​​

Partecipa al prossimo webinar

Fissa un appuntamento