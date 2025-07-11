11 luglio 2025
L'11 giugno 2025, IBM ha lanciato la disponibilità del suo nuovo approccio all'Integrazione: watsonx.data integration. Questa soluzione offre un unico piano di controllo per creare pipeline di batch,streaming in tempo reale e replica dei dati, sostenute da un'osservabilità integrata.
All'interno della stessa soluzione, i team possono creare pipeline di dati non strutturati riutilizzabili insieme a quelli strutturati, sbloccare una miniera d'oro di dati precedentemente inaccessibili per alimentare nuovi casi d'uso e soddisfare le esigenze in evoluzione dei moderni ambienti di dati. Con la funzionalità di Integrazione dei dati non strutturati di watsonx.data integration, gli utenti possono creare intuitivamente pipeline che acquisiscono, trasformano ed elaborano grandi volumi di dati non strutturati, inclusi documenti, PDF, PPT e altro, in pochi minuti.
Questo prodotto combina innovazioni innovative open source e proprietarie direttamente da IBM Research. Alcune delle migliori caratteristiche del prodotto includono:
Progettata per gestire i dati aziendali tradizionalmente sottoutilizzati, watsonx.data integration segna un importante passo avanti nel sbloccare i dati non strutturati per AI e analytics.
La maggior parte dei dati pubblici è già ben rappresentata nei foundation modelodierni, quindi il vero vantaggio competitivo deriva dallo sfruttamento dei dati aziendali. Eppure il 90% dei dati aziendali non è strutturato, un volume enorme di informazioni che rimane inutilizzato, da documenti e PDF a e-mail, immagini e registri: la maggior parte rimane fuori dalla portata dei tradizionali flussi di lavoro di analisi e intelligenza artificiale. E a causa della complessità di accesso e gestione, solo l'1% è attualmente utilizzato nell'AI generativa.
Maggiori informazioni sulle sfide degli approcci tradizionali ai dati non strutturati. L'integrazione di IBM watsonx.data e il suo più ampio ecosistema di strumenti sono progettati per affrontare queste sfide a testa alta. Di seguito sono riportate le caratteristiche principale della funzionalità UDI che aiutano le Organizzazioni a navigare nell'odierno landscape in rapida evoluzione.
Questa soluzione include connettori predefiniti che consentono agli utenti di inserire un'ampia gamma di fonti e formati di dati di uso comune, insieme ai metadati e ai controlli di accesso associati, su larga scala e man mano che si evolvono. Sebbene sul mercato esistano alcuni connettori non strutturati, pochi possono adattarsi dinamicamente man mano che i documenti o le autorizzazioni cambiano nel tempo.
Sviluppata in collaborazione con IBM Research, l'integrazione di watsonx.data combina l'innovazione proprietaria con le principali tecnologie open source per portare l'elaborazione dei dati non strutturati nella moderna pipeline di dati. La sua tela visiva include operatori appositamente progettati per il testo e altre modalità, che coprono il mascheramento delle informazioni di identificazione personale (PII), il rilevamento dell'odio, degli abusi e delle parolacce (HAP), il filtro della qualità, il rilevamento della lingua e il punteggio di fiducia. Gli sviluppatori possono progettare un'unica pipeline per elaborare diversi tipi di file su larga scala, senza scrivere o mantenere codice personalizzato. Proprio come il drag-and-drop ELT per i dati strutturati, l'integrazione di watsonx.data offre la stessa esperienza no-code per i dati non strutturati e offre anche un Python SDK completo per coloro che preferiscono lavorare in modo più programmatico.
Inoltre, gli operatori predefiniti per l'embedding, la suddivisionein blocchi e la vettorizzazione consentono agli utenti di trasformare i documenti grezzi in rappresentazioni strutturate ottimizzate per il downstream AI. Questi operatori convertono automaticamente i contenuti non strutturati in vettori semanticamente significativi, consentendo casi d'uso come RAG, classificazione dei documenti e ricerca intelligente, il tutto senza richiedere una profonda esperienza di machine learning (ML).
Questo supporto per l'integrazione dei dati non strutturati è progettato per elaborare petabyte di contenuti complessi e non strutturati in modo efficiente. I documenti di 10 MB o più, in migliaia di file, vengono compressi in un formato unificato e ad alte prestazioni, che consente un'elaborazione e una rielaborazione rapide. Questa architettura è stata creata appositamente per soddisfare le esigenze di dati non strutturati su scala aziendale.
La pipeline supporta strutture di dati ad aggiornamento automatico. Quando un documento sorgente, ad esempio «Documento A», viene aggiornato a una nuova versione, solo il delta viene acquisito e propagato senza interruzioni a valle, incluso nel database vettoriale. Ciò garantisce che migliaia di pipeline su larga scala rimangano aggiornate senza la necessità di una rielaborazione completa.
Supporto nativo per gli ACL, che garantisce che le autorizzazioni a livello di documento vengano mantenute in tutta la pipeline di dati. Ciò significa che gli utenti accedono solo ai dati che sono autorizzati a visualizzare - critico per mantenere la sicurezza, la conformità e la fiducia mentre i dati non strutturati fluiscono tra team e applicazioni.
In definitiva, nessuna organizzazione può risolvere da sola i problemi sopra menzionati. Il supporto di watsonx.data integration per l'UDI si basa su un'infrastruttura flessibile basata su moderni strumenti open source. Di seguito sono riportati i componenti tecnici fondamentali che costituiscono questa base.
Il supporto di watsonx.data integration per UDI è stato sviluppato in risposta all'esperienza di IBM nella creazione della famiglia di foundation model Granite. L'elaborazione e la preparazione dei 12 trilioni di token utilizzati per addestrare Granite ha messo in luce lacune critiche negli strumenti di dati non strutturati esistenti. In risposta, IBM Research ha creato il Data Prep Kit (DPK) e i dati e Model Factory (DMF), framework modulari che offrono solidi operatori di pulizia attraverso modalità come testo, codice, lingue e immagini. Questi componenti collaudati, ora integrati in watsonx.data integration, sono stati progettati per casi d'uso ad alta produttività e di livello di produzione. Oggi, DPK è stato reso open source tramite la Linux Foundation, continuando la missione di IBM di democratizzare l'accesso a strumenti avanzati per i dati non strutturati.
Il supporto di watsonx.data integration per UDI incorpora anche Watson Document Understanding e Docling, un'iniziativa IBM open source con oltre 30.000 stelle GitHub, per fornire un'analisi dei documenti e l'estrazione di entità all'avanguardia. Queste tecnologie eccellono in attività di estrazione complesse, inclusa l'estrazione di tabelle, con velocità e precisione leader del settore.
Sia che tu preferisca opzioni open source come Milvus o database vettoriali gestiti, l'UDI di watsonx.data integration offre opzioni di supporto. Le pipeline di vettorizzazione sono integrate nativamente nella piattaforma, consentendo una rapida implementazione nella sua soluzione di storage preferita per i workload RAG e di ricerca semantica.
IBM watsonx.data integration sta pilotando attivamente le integrazioni con Langchain e altri popolari framework di orchestrazione open source, apportando una vera ondata di innovazione guidata dalla comunità nella piattaforma. Queste integrazioni consentono l'orchestrazione full stack delle funzioni costruite o utilizzate tramite Langchain direttamente all'interno di una pipeline di integrazione nativa di watsonx.data integration, preservando al contempo la governance, la sicurezza e la scalabilità di livello aziendale richieste per l'uso in produzione.
Con l'integrazione di IBM watsonx.data, i clienti possono sbloccare il pieno potenziale dei dati non strutturati attraverso una potente combinazione di innovazione open source e tecnologia aziendale proprietaria. Dalla generazione di contenuti personalizzati all'aggregazione delle fatture e al processo decisionale agentico, UDI trasforma i contenuti grezzi in informazioni pronte per l'intelligenza artificiale, ora disponibili come parte dell'integrazione di IBM watsonx.data.
Ciò che distingue questa offerta è la sua capacità di unificare i dati strutturati e i dati non strutturati in una piattaforma, semplificando la creazione di pipeline e la dispersione degli strumenti, accelerando così i risultati. Indipendentemente dal caso d'uso, l'integrazione di watsonx.data è la base per sbloccare il valore aziendale da tutti i suoi dati.