11. Juli 2025
Am 11. Juni 2025 hat IBM seinen neuen Ansatz zur Datenintegration vorgestellt: watsonx.data integration. Diese Lösung bietet eine einzige Steuerungsebene für die Erstellung von Batch-, Echtzeit-Streaming- und Data-Replication-Pipelines, unterstützt durch integrierte Observability.
Innerhalb derselben Lösung können Teams wiederverwendbare unstrukturierte Daten-Pipelines neben strukturierten erstellen, um so eine Goldmine an zuvor unzugänglichen Daten freizuschalten und neue Anwendungsfälle zu ermöglichen, um den sich ändernden Anforderungen moderner Datenumgebungen gerecht zu werden. Mit der Funktion zur Integration unstrukturierter Daten (UDI) von watsonx.data integration können Benutzer intuitiv Pipelines erstellen, die große Mengen unstrukturierter Daten (einschließlich Dokumente, PDFs, PPTs und mehr) in nur wenigen Minuten aufnehmen, transformieren und verarbeiten.
Dieses Produkt kombiniert bahnbrechende Open-Source- und proprietäre Innovationen direkt aus der IBM Forschung. Zu den branchenführenden Produktfunktionen gehören:
Entwickelt für den Umgang mit Unternehmensdaten, die bisher nicht ausreichend genutzt wurden, markiert watsonx.data integration einen großen Schritt nach vorn bei der Erschließung unstrukturierter Daten für KI und Analysen.
Die meisten öffentlichen Daten sind in den heutigen Foundation Models gut repräsentiert - der wahre Wettbewerbsvorteil entsteht also durch die Nutzung deiner Unternehmensdaten. Doch 90 % der Unternehmensdaten sind unstrukturiert, eine überwältigende Menge an Informationen, die ungenutzt bleibt, von Dokumenten und PDFs bis hin zu E-Mails, Bildern und Protokollen – die meisten davon bleiben außerhalb der Reichweite traditioneller Analyse- und KI-Workflows. Und aufgrund der Komplexität des Zugangs und der Verwaltung wird derzeit nur 1 % davon für generative KI genutzt.
Erfahren Sie mehr über die Herausforderungen herkömmlicher Ansätze für unstrukturierte Daten. Die IBM watsonx.data integration und ihr erweitertes Ökosystem an Tools wurden entwickelt, um diese Herausforderungen direkt zu meistern. Im Folgenden sind die Hauptmerkmale der UDI-Funktionen aufgeführt, die Organisationen helfen, sich in der sich schnell entwickelnden Geschäftswelt von heute zurechtzufinden.
Diese Lösung beinhaltet vorgefertigte Konnektoren, die es Benutzern ermöglichen, eine Vielzahl häufig verwendeter Datenquellen und Formate (zusammen mit den zugehörigen Metadaten und Zugriffskontrollen) in großem Maßstab und während ihrer Entwicklung aufzunehmen. Es gibt zwar einige unstrukturierte Konnektoren auf dem Markt, aber nur wenige können sich dynamisch anpassen, wenn sich Dokumente oder Berechtigungen im Laufe der Zeit ändern.
watsonx.data integration wurde in Zusammenarbeit mit IBM Research entwickelt und kombiniert proprietäre Innovationen mit führenden Open-Source-Technologien, um die Verarbeitung unstrukturierter Daten in die moderne Datenpipeline zu integrieren. Die visuelle Arbeitsfläche umfasst speziell entwickelte Operatoren für Text und andere Modalitäten, darunter die Maskierung personenbezogener Daten, die Erkennung von Hass, Missbrauch und Profanität, Qualitätsfilterung, Spracherkennung und Konfidenzbewertung. Entwickler können eine einzelne Pipeline entwerfen, um verschiedene Dateitypen in großem Maßstab zu verarbeiten – ohne benutzerdefinierten Code schreiben oder pflegen zu müssen. Genau wie das Drag-and-Drop-ELT für strukturierte Daten bietet watsonx.data integration die gleiche intuitive Low-Code- bzw. No-Code-Erfahrung für unstrukturierte Daten und bietet außerdem ein voll funktionsfähiges Python-SDK für diejenigen, die lieber programmatisch arbeiten.
Darüber hinaus ermöglichen vorgefertigte Operatoren für Einbettung, Chunking und Vektorisierung den Benutzern die Umwandlung von Rohdokumenten in strukturierte Darstellungen, die für die nachgelagerte KI optimiert sind. Diese Operatoren wandeln unstrukturierte Inhalte automatisch in semantisch aussagekräftige Vektoren um und ermöglichen Anwendungsfälle wie RAG, Dokumentenklassifizierung und intelligente Suche – und das alles, ohne dass dafür tiefgreifende Kenntnisse in maschinellem Lernen (ML) erforderlich sind.
Diese Unterstützung für die Integration unstrukturierter Daten ist darauf ausgelegt, Petabyte komplexer, unstrukturierter Inhalte effizient zu verarbeiten. Dokumente von 10 MB oder mehr – in Tausenden von Dateien – werden in ein einheitliches Format mit hoher Leistung komprimiert, das eine schnelle Verarbeitung und Wiederaufbereitung ermöglicht. Diese Architektur ist speziell auf die Anforderungen unstrukturierter Daten in Unternehmen zugeschnitten.
Die Pipeline unterstützt selbstaktualisierende Datenstrukturen. Wenn ein Quelldokument (z. B. „Dokument A“) auf eine neue Version aktualisiert wird, wird nur das Delta erfasst und nahtlos nachgelagert, auch an die Vektordatenbank. Dadurch wird sichergestellt, dass Tausende von Pipelines in großem Maßstab auf dem neuesten Stand bleiben, ohne dass eine vollständige Neuverarbeitung erforderlich ist.
Native Unterstützung von ACLs , die sicherstellt, dass Berechtigungen auf Dokumentebene in der gesamten Datenpipeline erhalten bleiben. Das bedeutet, dass die Nutzer nur auf die Daten zugreifen können, für die sie eine Berechtigung haben. Dies ist entscheidend für die Aufrechterhaltung von Sicherheit, Compliance und Vertrauen, wenn unstrukturierte Daten zwischen Teams und Anwendungen übertragen werden.
Letztlich kann kein Unternehmen die oben genannten Probleme im luftleeren Raum lösen. Die Unterstützung von watsonx.data integration für UDI basiert auf einer flexiblen Infrastruktur, die auf modernen Open-Source-Tools basiert. Nachfolgend sind die wichtigsten technischen Komponenten aufgeführt, die diese Grundlage bilden.
Die Unterstützung von watsonx.data integration für UDI wurde als Reaktion auf IBMs eigene Erfahrung beim Aufbau der Granite-Familie von Foundation Models entwickelt. Die Verarbeitung und Aufbereitung der 12 Billionen Token, die zum Trainieren von Granite verwendet werden, offenbarte kritische Lücken in den bestehenden Tools für unstrukturierte Daten. Als Reaktion darauf entwickelte IBM Research das Data Prep Kit (DPK) und die Data Model Factory (DMF)– modulare Frameworks, die den Beschäftigten in Bezug auf Text, Code, Sprachen und Bilder leistungsstarke Bereinigungsoperatoren bieten. Diese in der Praxis bewährten Komponenten, die jetzt in watsonx.data integration enthalten sind, wurden für Anwendungsfälle mit hohem Durchsatz und Produktionsqualität entwickelt. Heute wird DPK von der Linux Foundation als Open-Source-Lösung bereitgestellt und setzt damit IBMs Mission fort, den Zugang zu fortschrittlichen Tools für unstrukturierte Daten zu demokratisieren.
Die Unterstützung von watsonx.data integration für UDI umfasst auch Watson Document Understanding und Docling, eine Open-Source-Initiative von IBM mit über 30.000 GitHub-Stars, um hochmodernes Dokumentenparsing und Entitätsextraktion zu ermöglichen. Diese Technologien eignen sich hervorragend für komplexe Extraktionsaufgaben – einschließlich der Extraktion von Tabellen – mit branchenführender Geschwindigkeit und Genauigkeit.
Egal, ob Sie Open-Source-Optionen wie Milvus und/oder verwaltete Vektordatenbanken bevorzugen, die UDI von watsonx.data integration bietet Support-Optionen. Vektorisierungspipelines sind nativ in die Plattform eingebettet und ermöglichen eine schnelle Bereitstellung zu Ihrem bevorzugten Speicher für RAG- und semantische Such-Workloads.
IBM watsonx.data integration testet aktiv Integrationen mit Langchain und anderen beliebten Open-Source-Orchestrierungs-Frameworks und bringt so einen wahren Aufschwung von Community-getriebenen Innovationen in die Plattform. Diese Integrationen ermöglichen eine umfassende Orchestrierung von Funktionen, die über Langchain erstellt oder genutzt werden, direkt in einer nativen Pipeline für watsonx.data integration, wobei die für den Produktionseinsatz erforderliche Governance, Sicherheit und Skalierbarkeit der Unternehmensklasse erhalten bleibt.
Mit IBM watsonx.data integration können Kunden das volle Potenzial unstrukturierter Daten durch eine leistungsstarke Kombination aus Open-Source-Innovation und proprietärer Technologie freischalten. Von der personalisierten Inhaltserstellung über die Aggregation von Rechnungen bis hin zur agentenbasierten Entscheidungsfindung wandelt UDI Rohinhalte in KI-fähige Erkenntnisse um – jetzt verfügbar als Teil der IBM watsonx.data-Integration.
Was dieses Angebot von anderen unterscheidet, ist seine Fähigkeit, strukturierte und unstrukturierte Daten in einer Plattform zu vereinen, was den Aufbau von Pipelines und die Ausbreitung von Tools vereinfacht und so die Ergebnisse beschleunigt. Unabhängig vom Anwendungsfall ist watsonx.data integration die Grundlage, um aus all Ihren Daten einen geschäftlichen Nutzen zu ziehen.