Diese Ankündigung markiert einen bedeutenden Schritt in IBMs Ansatz zur interoperablen Abstammung: IBM Produkte integrieren sich mithilfe eines Open-Source-Standards statt eines proprietären Metadatenmodells.
Im November kündigte IBM eine erweiterte OpenLineage-Unterstützung innerhalb der watsonx.data intelligence an, die es Kunden ermöglicht, Lineage-Ereignisse im OpenLineage-Format zu importieren und zu konsumieren. Diese Funktion erweiterte die Abdeckung der Abstammung über externe Systeme hinweg.
Mit dieser Version schließt IBM den Kreis: watsonx.data und watsonx.data integration generieren jetzt OpenLineage-Ereignisse zur Ausführungszeit, und watsonx.data intelligence konsumiert sie.
Das Ergebnis ist ein Produzenten-Verbraucher-Modell, das auf einer von der Community entwickelten Spezifikation basiert. Anstatt Produkte durch interne Herkunftsformate eng miteinander zu verknüpfen, hat IBM sie durch OpenLineage aufeinander abgestimmt – einem gemeinsamen Standard, der für die Interoperabilität zwischen verschiedenen Anbietern und Tools entwickelt wurde.
Diese Wahl ist wichtig.
Moderne Datenarchitekturen existieren selten innerhalb eines einzigen Systems: Strukturierte Abfragen werden in einer Engine ausgeführt; Ingestionspipelines verarbeiten unstrukturierte Inhalte an anderer Stelle; Orchestrierungstools koordinieren Arbeitsabläufe; und Governance-Plattformen erstellen nachträglich Herkunftsansichten.
Entwurfszeit- und Ausführungszeitabstammung dienen sich ergänzenden Zwecken: Die Entwurfsabstammung bietet eine strukturelle Sicht auf Pipelines und Abhängigkeiten, während die Ausführungszeitabstammung operativen Kontext hinzufügt – also die Erfassung dessen, was tatsächlich gelaufen ist, welche Datensätze verwendet wurden und welche Ausgaben während einer bestimmten Ausführung erzeugt wurden.
watsonx.data sendet nun OpenLineage-Ereignisse von seinen Abfrage- und Verarbeitungs-Engines und erfasst so die Herkunft strukturierter Workloads zur Ausführungszeit. Watsonx.data integration gibt OpenLineage-Ereignisse aus Erfassungs- und Transformationspipelines aus, einschließlich solcher, die unstrukturierte Daten verarbeiten.
Da Unternehmen Analysen, Erfassungspipelines und Lakehouse-Architekturen kombinieren, muss sich die Sichtbarkeit sowohl auf strukturierte als auch auf unstrukturierte Datenverläufe erstrecken. Die Ausgabe standardisierter Herkunftsinformationen zur Laufzeit erweitert das Gesamtbild der Herkunftsinformationen um eine operative Tiefe.
Moderne Datenumgebungen sind multi-engine- und multi-cloud-basiert. Wenn Herkunftsmetadaten in proprietären Formaten definiert werden, wird die Integration unflexibel und lässt sich nur schwer erweitern. Jede Verbindung erfordert eine benutzerdefinierte Zuordnung und jede Erweiterung erhöht die Komplexität.
OpenLineage bietet ein anderes Modell: ein gemeinsames Vokabular zur Beschreibung von Jobs, Durchläufen und Datensätzen. Das Stammbaumdiagramm teilt Systeme, weil sie ein gemeinsames Vokabular haben, nicht weil sie einen gemeinsamen Anbieter haben.
Durch die Ausgabe von Lineage im OpenLineage-Format machen watsonx.data und watsonx.data-Integration diese Metadaten portabel. Nachgelagerte Governance- und Observability-Plattformen, die den Standard unterstützen, können ihn direkt aufnehmen, ohne proprietäre Adapter.
Kunden erwarten zunehmend diese Haltung. Sie wollen die Gewissheit haben, dass die Metadaten, die ihre Datenströme beschreiben, portabel, dauerhaft und anbieterneutral bleiben. Interoperabilität kann nicht durch eine einzige Plattform gewährleistet werden. Sie entsteht aus dem gemeinsamen Engagement des gesamten Ökosystems.
Offene Standards verringern nicht nur die Abhängigkeit, sondern schaffen auch die Voraussetzungen für Innovationen.
Durch die Trennung der Lineage-Spezifikation von den Tools, die sie implementieren, bewahrt das Ökosystem seine Flexibilität. Anbieter können Innovationen in den Bereichen Visualisierung, Governance und Automatisierung vorantreiben und dabei auf eine gemeinsame Grundlage für den Metadatenaustausch zurückgreifen.
Wenn die Abstammung standardisiert ist:
Da watsonx.data und watsonx.data integration nun als OpenLineage-Produzenten fungieren – und watsonx.data intelligence diese Ereignisse verarbeitet – stärkt IBM seine Rolle im OpenLineage-Ökosystem und bekräftigt gleichzeitig sein Engagement für offene Interoperabilität.
Da IBM die OpenLineage-Unterstützung auf watsonx.data und watsonx.data integration ausgedehnt hat, erforderten bestimmte fortgeschrittene Herkunftsszenarien eine zusätzliche Metadatenabdeckung und feinere Details als frühere Versionen der Spezifikation unterstützten.
IBM hat Verbesserungen zur OpenLineage-Spezifikation beigetragen, um reichhaltigere Metadaten und detailliertere Abstammung in diesen Szenarien zu erfassen. Diese Beiträge tragen dazu bei, die Vollständigkeit und Qualität der Herkunftsereignisse zu verbessern – nicht nur für IBM-Produkte, sondern auch für andere Hersteller im Ökosystem.
Durch die Erweiterung der Spezifikation in Zusammenarbeit mit der OpenLineage-Community unterstützt IBM die fortlaufende Weiterentwicklung des Standards und fördert höhere Niveaus der Linientreue über Implementierungen hinweg.
Entdecken Sie watsonx.data intelligence