Wie herkömmliche Geschäftsverträge enthalten auch Datenverträge Bestimmungen und Bedingungen, die regeln, was von einer Partei an die andere geliefert wird. In einem Datenvertrag können dies beispielsweise Regeln zur Datenqualität, Schema-Definitionen, Service Level Agreements, Informationen zum Datenlieferanten sowie Serverinformationen sein.
Der wesentliche Unterschied bei Datenverträgen besteht jedoch darin, dass sie in Code geschrieben sind. Daher werden die Vereinbarungen durch Automatisierung und nicht durch manuelle Prozesse durchgesetzt.
Die Auswirkungen von Datenverträgen auf das Data Engineering wurden mit den Auswirkungen von Programmierschnittstelle (APIs) auf die Softwareentwicklung verglichen. APIs definieren Regeln, die es Softwareanwendungen ermöglichen, miteinander zu kommunizieren, während Datenverträge Regeln definieren, die es Datennutzern ermöglichen, Daten aus verschiedenen Quellen erfolgreich zu integrieren und zu nutzen.
Und genau wie APIs die Produktivität steigern und Innovationen in der Softwareentwicklung beschleunigen, kann die erfolgreiche Umsetzung von Datenverträgen Unternehmen und Datennutzern eine Reihe von Vorteilen bieten.
Am wichtigsten ist dabei die Vermeidung von Ausfällen in der Datenpipeline: Ohne Datenverträge können Änderungen in der Datenproduktion im vorgelagerten Bereich katastrophale Folgen für die nachgelagerten Nutzer haben. Datenverträge können sicherstellen, dass solche schwerwiegenden Änderungen erkannt und behoben werden, bevor sie sich auf die Datennutzer auswirken.
Zu den weiteren Vorteilen von Datenverträgen zählen Verbesserungen bei der Datenqualität, der Data Governance und der Skalierbarkeit. Datenverträge bieten zudem grundlegende Unterstützung für Datenprodukte und Data Mesh-Architekturen, die es Geschäftsanwendern ermöglichen, im Unternehmen Daten zu finden und deren Wert zu erschließen.
Es gibt eine Vielzahl von Tools und Plattformen, die Unternehmen dabei unterstützen, Datenverträge zu definieren und durchzusetzen, darunter Tools zur Datenqualitätssicherung und Plattformen für Data Governance.
Instabile und fehleranfällige Datenpipelines sind vielen Dateningenieuren ein Dorn im Auge. Eine Studie ergab, dass mehr als die Hälfte der Ingenieure mindestens einmal im Monat, wenn nicht sogar öfter, mit Pipeline-Ausfällen in ihren Datensystemen konfrontiert ist.1
Allzu oft, wie ein Data Architect feststellte, werden Pipelines „mit Klebeband und Verzweiflung zusammengehalten“. Wenn sie ausfallen, können sie die Entscheidungsfindung und Initiativen im Bereich der künstlichen Intelligenz (KI) auf katastrophale Weise untergraben.
Datenverträge können dazu beitragen, solche Folgen zu verhindern, indem sie eine häufige Ursache für Pipeline-Fehler angehen: die mangelnde Abstimmung zwischen Datenproduzenten und Datenkonsumenten. Eine solche Diskrepanz entsteht, wenn neue, von Datenproduzenten bereitgestellte Daten nicht den Erwartungen der Datennutzer entsprechen, die sich möglicherweise auf bestimmte Datentypen, Schemata und andere Vorgaben stützen, um ihren Anwendungsfällen gerecht zu werden.
„Es ist verständlich, dass nachgelagerte Verbraucher ‚Zweifel an der Zuverlässigkeit der Daten haben, auf die sie stoßen‘“, so Jean-Georges Perrin, ein langjähriger IBM Champion. „Um Vertrauen zu schaffen, muss der Datenproduzent oder -eigentümer ein Versprechen abgeben und dafür bürgen“, schrieb Perrin.
Ein solches Versprechen – sei es in Bezug auf Datenqualität, Validierung, Zugriff oder Struktur – lässt sich durch die Umsetzung von Datenverträgen gewährleisten. Wenn sich Datenproduzenten und Datennutzer auf Datenanforderungen einigen und diese festschreiben, können Probleme mit der Datenqualität verhindert werden, bevor sie sich auf nachgelagerte Workflows auswirken.
Datenverträge werden für KI-Workflows immer wichtiger, da die Bereitstellung der richtigen Daten für das Modelltraining und die Datenanalyse entscheidend für genaue Vorhersagen ist.
„Sie erhalten bessere Daten in Ihren Systemen, sodass nicht mehr das Prinzip ‚Müll rein, Müll raus‘ gilt“, sagte Perrin.
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Da die Diskrepanz zwischen Datenproduzenten und Datennutzern maßgeblich den Bedarf an Datenverträgen bestimmt, ist es sinnvoll, diese beiden Gruppen und ihre Rollen innerhalb von Datenökosystemen genauer zu betrachten.
Datennutzer sind darauf angewiesen, dass Datenproduzenten ihre Daten für die nachgelagerte Nutzung zur Verfügung stellen. Diese Abhängigkeit allein begründet jedoch noch keine solide Beziehung zwischen Datennutzern und Produzenten. Das liegt daran, dass Produzenten dazu neigen, Daten in den Formaten zu speichern, die für ihre Anwendungen am besten geeignet sind – die Anforderungen der Datenverwaltung der nachgelagerten Nutzer stehen dabei nicht automatisch im Mittelpunkt ihres Interesses.
Folglich berücksichtigen Softwareentwickler bei der Aktualisierung von Anwendungen und Code möglicherweise nicht, wie sich diese Aktualisierungen auf die Daten auswirken, die letztendlich an die Datennutzer geliefert werden.
Wenn solche Änderungen unerwartet eintreten – selbst relativ geringfügige Änderungen wie das Entfernen einer einzigen Spalte aus einer Tabelle mit 1.000 Spalten –, kann dies für die Datennutzer zu Chaos führen. Diese sogenannten „Breaking changes” können den Datenfluss stören und die Kompatibilität der Datensätze gefährden.
Infolgedessen schlagen Skripte fehl, Dashboards sind veraltet oder ungenau, und sowohl Menschen als auch KI-Agenten werden der zuverlässigen Daten beraubt, die für wichtige Entscheidungen und Abläufe erforderlich sind.
Durch die Festlegung verbindlicher Vereinbarungen zwischen Datenproduzenten und Datennutzern können Datenverträge die Silos zwischen diesen beiden Gruppen aufbrechen, Unstimmigkeiten verhindern und funktionalere Datenpipelines ermöglichen.
Wie Befürworter anmerken, wandeln Datenverträge implizite Annahmen in explizite Garantien um: Sie legen genau fest, welche Daten Datenproduzenten an Datennutzer liefern sollen und wie diese Lieferung erfolgen soll. Zu den wichtigsten Bestandteilen von Datenverträgen gehören:
Die Grundlagen, auch als demografische Daten bezeichnet, umfassen allgemeine Informationen zum Vertrag. Dazu können eindeutige Kennungen, die Vertragsversion (beispielsweise 1.0 oder 2.0), der Vertragsstatus (wie „aktiv“ oder „ausgelaufen“), der Verwendungszweck der Daten sowie rechtliche Einschränkungen für die Datennutzung gehören.
Eine Schemadefinition legt fest, wie Daten organisiert sind. Sie definiert Objekte (Datenstrukturen wie Tabellen und Dokumente), Objekteigenschaften (wie die Spalten in einer Tabelle) sowie Metadaten für die enthaltenen Datentypen, beispielsweise Zeitstempel und Begrenzungen der Zeichenfolgenlänge. Schema-Register, also zentralisierte Repositorien zur Verwaltung von Schemata, können zur Unterstützung von Datenverträgen beitragen.
Datenverträge legen Regeln und Parameter fest, um eine hohe Datenqualität sicherzustellen. Sie können verschiedene Datenqualitätsmetriken abdecken, wie beispielsweise Genauigkeit, Vollständigkeit, Gültigkeit und die Anzahl der Nullwerte. Darüber hinaus können benutzerdefinierte Regeln Qualitätsprüfungen durch Tools für Datenqualität ermöglichen.
Datenverträge können Quellen für Support angeben – wie beispielsweise Slack-Kanäle, Teams-Kanäle, Discord-Chats, E-Mail-Verteiler und Websites – für Datennutzer, die Hilfe bei ihren Datenverträgen benötigen.
Im Abschnitt „Preisgestaltung“ eines Datenvertrags ist aufgeführt, welche Kosten einem Datennutzer für ein Datenprodukt in Rechnung gestellt werden. Darin können die verwendete Währung und die Maßeinheit (wie Megabyte oder Gigabyte) angegeben sein, die zur Berechnung der Kosten herangezogen werden.
Der Abschnitt „Team“ eines Datenvertrags, der in einigen älteren Vorlagen für Datenverträge als „Stakeholder“ bezeichnet wird, enthält Informationen zu den Mitgliedern des Teams, das Eigentümer der Daten ist, sowie zu deren Beziehung zum Datenvertrag.
Im Abschnitt „Rollen“ eines Datenvertrags sind die Rollen aufgeführt, die Datennutzern verschiedene Typen des Zugriffs (wie Lese- oder Schreibzugriff) auf einen Datensatz gewähren.
Datenverträge enthalten Beschreibungen von Service Level Agreements (SLAs), in denen das Leistungsniveau festgelegt ist, das der Anbieter erfüllen muss. So können SLA-Abschnitte beispielsweise Garantien darüber enthalten, wann die Daten verfügbar sind und wie lange sie aufbewahrt werden.
Durch die Angabe des Datenservers – beispielsweise Kafka, Microsoft SQL, Google BigQuery oder IBM Db2 – wird dieser für Datennutzer auffindbar, während Plattformingenieure gleichzeitig die Informationen erhalten, die sie zur Automatisierung des Zugriffs benötigen. Dieser Abschnitt kann auch Informationen zu verschiedenen Umgebungen enthalten, wie beispielsweise Entwicklungs- und Produktionsumgebungen.
Zusätzlich zu den Kernwerten der Datenverträge können die Stakeholder den Datenverträgen benutzerdefinierte Eigenschaften hinzufügen, um ihren spezifischen Anforderungen gerecht zu werden. Aktuelle Versionen beliebter Datenvertragsvorlagen bieten zudem die Möglichkeit, Beziehungen zwischen Eigenschaften zu dokumentieren, auf externe Verträge zu verweisen und auf eine Bibliothek vordefinierter Datenqualitätsregeln für einheitliche Qualitätsprüfungen zuzugreifen.
Datenverträge unterscheiden sich deutlich von anderen Verträgen, da sie nicht in Klartext verfasst sind. Vielmehr werden sie in der Regel in YAML oder JSON verfasst, also in für Menschen und Maschinen lesbaren Datenserialisierungssprachen. (Für Nutzer, die mit der Codierung von Serialisierungssprachen nicht vertraut sind, können Datenverträge in Excel erstellt und mithilfe des Open-Source-Tools Data Contract CLI in YAML-Dateien konvertiert werden.)
Der Vorteil der Erstellung von Datenverträgen in einer Serialisierungssprache besteht darin, dass sie eine Automatisierung anstelle mühsamer manueller Prozesse ermöglicht. Maschinenlesbare Datenverträge lassen sich in Datenplattformen und Durchsetzungstools integrieren. Unternehmen können diese Lösungen bereitstellen, um zu prüfen, ob Datensätze den Regeln des Datenvertrags entsprechen, und so Probleme beheben, bevor diese zu Ausfällen in der Datenpipeline führen.
Viele Datenverträge basieren auf dem Open Data Contract Standard (ODCS). Wie der Name schon sagt, ist ODCS ein Open-Source-Framework zur Standardisierung von Datenverträgen. Der Standard wird von Bitol definiert, einem KI & Data-Sandbox-Projekt der Linux Foundation unter der Apache-2.0-Lizenz, und ist auf GitHub verfügbar.
Befürworter der Initiative argumentieren, dass sie Innovationen fördert, indem sie es Unternehmen ermöglicht, Datenverträge abzuschließen, die ihre Datenarchitektur unterstützen, ohne dass dabei das Risiko einer Anbieterbindung besteht.
Datenverträge können zahlreiche Schwachstellen in Datenpipelines beheben und damit den Weg für Unternehmen ebnen, den Wert ihrer Daten-Assets voll auszuschöpfen. Zu den Vorteilen von Datenverträgen gehören:
Wie ein altes Sprichwort sagt: Was gemessen wird, lässt sich auch steuern. Die Festlegung von Standards für Genauigkeit, Validität, Aktualität und andere Metriken zur Datenqualität in einem Datenvertrag kann die Qualität der gelieferten Daten verbessern und gleichzeitig die Latenzzeit verringern.
Datenverträge können Beziehungen zwischen miteinander verbundenen Aufgaben oder Abhängigkeiten festlegen. Durch die Klärung solcher Abhängigkeiten können Datenproduzenten grundlegende Änderungen vermeiden.
Datenverträge unterliegen der Versionskontrolle, was bedeutet, dass bei wesentlichen Änderungen neue Versionen der Verträge erstellt werden. Dies kann Anbietern dabei helfen, Änderungen – wie beispielsweise Schemaänderungen – auf „sichere“ Weise einzuführen, sodass Verbraucher Zeit haben, sich auf diese Änderungen einzustellen, wodurch das Risiko plötzlicher Pipeline-Breaks verringert wird.
Die Erstellung eines Datenvertrags erleichtert die Kommunikation und die Einigung zwischen Datenproduzenten und Datennutzern. Nach seiner Erstellung dient der Vertrag als Grundlage für die weitere Zusammenarbeit, da durch die Versionsverwaltung Änderungen an den Daten und Anforderungen berücksichtigt werden können.
Datenverträge regeln die Beziehungen zwischen den Stakeholdern und den Daten, einschließlich der Frage, wem die Daten gehören, welche Rollen darauf zugreifen dürfen und wie Nutzer Unterstützung erhalten können. Verträge tragen dazu bei, die Zuständigkeiten zu klären und sorgen so für mehr Verantwortlichkeit.
Datenverträge können als Tools der Data Governance betrachtet werden, da sie wichtige Governance-Ziele widerspiegeln und durchsetzen, wie beispielsweise die Gewährleistung von Datenqualität, -sicherheit und -verfügbarkeit während des gesamten Datenlebenszyklus.
Durch die Förderung von Data Governance und Zusammenarbeit können Datenverträge Unternehmen und Geschäftsbereichen dabei helfen, Daten erfolgreich auszutauschen, selbst wenn das Datenvolumen in beispiellosem Tempo zunimmt.
In Diskussionen rund um Datenprodukte und Data Mesh werden häufig Datenverträge erwähnt. Dafür gibt es einen guten Grund: Datenverträge spielen eine zentrale Rolle bei der Unterstützung dieser beiden Technologien.
Beginnen wir mit Datenprodukten. Ein Datenprodukt ist ein wiederverwendbares, in sich geschlossenes Paket, das Daten, Metadaten, Semantik und Vorlagen kombiniert, um vielfältige geschäftliche Anwendungsfälle zu unterstützen. Datenverträge können als „Qualitätskontrolle“ für Datenprodukte dienen und sicherstellen, dass die darin enthaltenen Daten konsistent, zuverlässig und korrekt formatiert sind.
Perrin beschreibt die Beziehung zwischen Datenprodukten und Datenverträgen mit familiären Begriffen: „Datenverträge und Datenprodukte sind wie unzertrennliche Cousins – sie arbeiten stets zusammen, sind immer aufeinander abgestimmt und sorgen stets dafür, dass alles reibungslos läuft.“
Die Bedeutung von Datenverträgen für Datenprodukte macht diese auch für die Funktionsweise eines Data Mesh wichtig. Ein Data Mesh ist eine dezentrale Datenarchitektur, die Daten nach Geschäftsbereichen – wie Marketing, Vertrieb oder Kundenservice – organisiert.
In einer Data Mesh-Architektur nutzen Domänen-Datenproduzenten Datenprodukte, die es Geschäftsanwendern ermöglichen, Daten aus verschiedenen Bereichen eines Unternehmens zu finden und zu nutzen. Wenn also Datenverträge die Leistungsfähigkeit von Datenprodukten gewährleisten, tragen sie zum Erfolg des Data Mesh als Ganzes bei.
Im Buch Data Contracts beschreiben die Datenexperten Chad Sanderson, Mark Freeman und B.E. Schmidt den folgenden Prozess zur Funktionsweise von Datenverträgen.3
Unternehmen können aus einer Vielzahl von Tools und Plattformen wählen, um Datenverträge zu erstellen und zu verwalten. Dazu gehören:
Die individuellen Anforderungen eines Unternehmens und seine bestehenden Datenstacks können dabei helfen, zu ermitteln, welche Lösungen für Datenverträge oder welche Kombination von Lösungen am besten geeignet sind, um seine Datenverträge zu unterstützen.
Verwandeln Sie Rohdaten in KI-fähige Daten mit einer optimierten Benutzererfahrung für die Integration beliebiger Daten in einem beliebigen Stil
Erstellen Sie mit IBM-Datenintegrationslösungen belastbare, leistungsstarke und kostenoptimierte Datenpipelines für Ihre generativen KI-Initiativen, Echtzeitanalysen, Lagermodernisierungen und betrieblichen Anforderungen.
Erfolgreiches Skalieren von KI mit der richtigen Strategie, Datensicherheit und Governance.
1 „Modern infrastructure helps data engineers deliver maximum value.” Fivetran. 11. März 2021.
2,3 Data Contracts: Developing Production-Grade Pipelines at Scale. O'Reilly Media. November 2025.