Startseite

Themen

Datenabstammung

Was ist Datenabstammung?
Lösungen für Datenabstammung von IBM erkunden Für KI-Updates anmelden
Illustration mit Collage von Cloud-Piktogrammen, Tortendiagramm, Grafikpiktogrammen zu folgenden Themen
Was ist Datenabstammung?

Die Datenabstammung ist der Prozess der Verfolgung des Datenflusses im Laufe der Zeit, der ein klares Verständnis für die Herkunft der Daten, ihre Veränderung und ihren endgültigen Bestimmungsort innerhalb der Datenpipeline vermittelt.

Tools zur Nachverfolgung der Datenabstammung ermöglichen die Aufzeichnung von Daten während ihres gesamten Lebenszyklus, einschließlich der Quellinformationen und aller Datentransformationen, die während ETL- oder ELT-Prozessen angewendet wurden.

Diese Art der Dokumentation ermöglicht es den Benutzern, verschiedene Kontaktpunkte entlang des Datenpfads zu beobachten und zu verfolgen, sodass Unternehmen die Richtigkeit und Konsistenz überprüfen können. Dies ist eine entscheidende Fähigkeit, um die Datenqualität innerhalb eines Unternehmens sicherzustellen. Sie wird häufig verwendet, um Kontextinformationen über historische Prozesse zu erhalten und Fehler bis zur Ursache zurückzuverfolgen.

 

Ein Leitfaden für Datenverantwortliche

Erfahren Sie, wie Sie die richtigen Datenbanken für Anwendungen, Analysen und generative KI nutzen.

Ähnliche Inhalte Registrieren Sie sich für das E-Book zu KI-Datenspeichern
Datenabstammung vs. Datenherkunft vs. Data Governance

Datenabstammung, Datenherkunft und Datenverwaltung sind eng miteinander verwandte Begriffe, die ineinander übergehen. Zusammen stellen sie sicher, dass eine Organisation die Datenqualität und Datensicherheit langfristig aufrechterhalten kann.

Data Governance schafft innerhalb von Unternehmen eine Struktur zur Verwaltung von Datenbeständen, indem Dateneigentümer, Geschäftsbedingungen, Regeln, Richtlinien und Prozesse während des gesamten Datenlebenszyklus definiert werden. Mithilfe von Lösungen zur Datenherkunft können Data-Governance-Teams sicherstellen, dass Daten diesen Standards entsprechen, und sie erhalten Einblick in die Art und Weise, wie sich Daten innerhalb der Pipeline verändern. Der Begriff Datenabstammung wird in der Regel im Zusammenhang mit der Datenherkunft verwendet, bezieht sich jedoch speziell auf die erste Instanz dieser Daten oder ihre Quelle.

Die Datenabstammung bietet einen Prüfpfad für Daten auf einer sehr granularen Ebene. Diese Art von Detail ist für die Behebung von Datenfehlern unglaublich hilfreich und ermöglicht Dateningenieuren eine effektivere Fehlerbehebung und eine schnellere Identifizierung von Lösungen. Während der Umfang der Datenverwaltung breiter ist als der der Datenabstammung und Datenherkunft, ist dieser Aspekt der Datenverwaltung ein wichtiger Faktor bei der Durchsetzung von betrieblichen Standards.

Warum Unternehmen Datenabstammung nutzen

Zuverlässige Daten sind unerlässlich, um bessere Entscheidungen zu treffen und Prozesse in allen Geschäftsbereichen zu verbessern – vom Vertrieb bis hin zur Personalabteilung. Diese Informationen sind jedoch nur dann wertvoll, wenn die Stakeholder weiterhin auf ihre Richtigkeit vertrauen, da Erkenntnisse nur so gut wie die Qualität der Daten sind. Die Datenabstammung gibt Aufschluss über Änderungen, die sich aus Datenmigrationen, Systemaktualisierungen, Fehlern und mehr ergeben können, und gewährleistet die Datenintegrität während des gesamten Lebenszyklus.

Die Datenabstammung dokumentiert die Beziehung zwischen Unternehmensdaten in verschiedenen Geschäfts- und IT-Anwendungen. Diese Details können Folgendes umfassen:

  • Wo sich Daten befinden und wie sie in einer Umgebung gespeichert werden, z. B. vor Ort, in einem Data Warehouse oder in einem Data Lake.
  • Wie die Daten verwendet werden können und wer für die Aktualisierung, Verwendung und Änderung der Daten verantwortlich ist. Dazu gehören auch die Rollen und Anwendungen, die zum Zugriff auf bestimmte Segmente sensibler Daten (z. B. personenbezogene Daten) berechtigt sind.
  • Tracking-Daten, die von Geschäftsanwendern und -anwendungen generiert, hochgeladen und geändert werden. Dies kann beispielsweise das Hinzufügen von Kontakten zu einem Customer-Relationship-Management-System (CRM) sein oder eine Datentransformation, wie das Entfernen doppelter Datensätze.
  • Daten, die von verschiedenen Teilen des Unternehmens erstellt und integriert werden, wie z. B. Netzwerkhardware und Server.
So funktioniert die Datenabstammung

Metadaten ermöglichen es den Benutzern von Tools für die Datenabstammung, den Weg der Daten durch die Datenpipeline vollständig nachzuvollziehen. Metadaten sind die „Daten über die Daten“, die verschiedene Informationen über die Datenbestände enthalten, wie z. B. Typ, Format, Struktur, Autor, Erstellungsdatum, Änderungsdatum und Dateigröße. Tools für die Datenabstammung liefern ein vollständiges Bild der Metadaten, um die Benutzer bei der Bestimmung des Nutzens der Daten für sie zu unterstützen.

In den letzten Jahren hat sich die Art und Weise, wie wir Daten speichern und nutzen, mit der Entwicklung von Big Data weiterentwickelt. Unternehmen investieren mehr in Data Science, um die Entscheidungsfindung und die Geschäftsergebnisse voranzutreiben. Um jedoch eine fundierte Analyse erstellen zu können, müssen sie Datenherkunftstools und Datenkataloge für die Datenerfassung und Datenzuordnung verwenden. Während Tools für die Datenabstammung die Entwicklung von Daten im Laufe der Zeit über Metadaten anzeigen, verwendet ein Datenkatalog dieselben Informationen, um ein durchsuchbares Verzeichnis aller Datenbestände in einer Organisation zu erstellen. Zusammen ermöglichen sie es den Datennutzern, die Bedeutung verschiedener Datenelemente für ein bestimmtes Ergebnis zu verstehen, was für die Entwicklung von Algorithmen für maschinelles Lernen von grundlegender Bedeutung ist.

Anwendungsfälle für Datenabstammung

Unternehmen benötigen heutzutage immer mehr Echtzeit-Einblicke, aber diese Erkenntnisse hängen vom Verständnis der Daten und ihrer Reise durch die Pipeline ab. Zu den Möglichkeiten, wie Teams End-to-End-Tools für die Datenabstammung zur Verbesserung von Arbeitsabläufen nutzen können, gehören:

Datenmodellierung: Um visuelle Darstellungen der verschiedenen Datenelemente und ihrer entsprechenden Verknüpfungen innerhalb eines Unternehmens zu erstellen, müssen Unternehmen die zugrunde liegenden Datenstrukturen definieren, die sie unterstützen. Die Datenherkunft hilft bei der Modellierung dieser Beziehungen und veranschaulicht die verschiedenen Abhängigkeiten im gesamten Datenökosystem. Da sich Daten im Laufe der Zeit weiterentwickeln, werden immer neue Datenquellen erschlossen, neue Datenintegrationen müssen vorgenommen werden usw. Daher muss auch das Gesamtdatenmodell, das Unternehmen zur Verwaltung ihrer Daten verwenden, an die sich ändernde Umgebung angepasst werden. Die Datenabstammung hilft dabei, diese Veränderungen im Laufe der Zeit durch Datenmodelldiagramme genau widerzuspiegeln, indem neue oder veraltete Verbindungen oder Tabellen hervorgehoben werden. Dies wiederum hilft Analysten und Datenwissenschaftlern, wertvolle und zeitnahe Analysen zu erstellen, da sie ein besseres Verständnis der Datensätze haben.

Datenmigration: Wenn Daten in ein neues Speichersystem verschoben oder neue Software integriert wird, nutzen Organisationen die Datenmigration, um die Speicherorte und den Lebenszyklus der Daten zu verstehen. Da die Datenabstammung einen Überblick darüber bietet, wie diese Daten durch das Unternehmen gelaufen sind, unterstützt sie die Teams bei der Planung dieser Systemmigrationen oder -aktualisierungen und beschleunigt den allgemeinen Übergang zur neuen Speicherumgebung. Außerdem bietet sie Teams die Möglichkeit, das Datensystem zu bereinigen, indem alte, irrelevante Daten archiviert oder gelöscht werden. Dies wiederum kann die Gesamtleistung des Datensystems verbessern, indem die zu verwaltende Datenmenge reduziert wird.

Compliance: Die Datenabstammung bietet einen Compliance-Mechanismus für Audits, verbessert das Risikomanagement und stellt sicher, dass Daten in Übereinstimmung mit den Richtlinien und Vorschriften der Datenverwaltung gespeichert und verarbeitet werden. So wurde beispielsweise im Jahr 2016 die DSGVO-Gesetzgebung geschaffen, um die personenbezogenen Daten von Menschen in der Europäischen Union und im Europäischen Wirtschaftsraum zu schützen und Einzelpersonen mehr Kontrolle über ihre Daten zu geben. In den Vereinigten Staaten haben einzelne Bundesstaaten, wie Kalifornien, Richtlinien wie den California Consumer Privacy Act (CCPA) entwickelt, der Unternehmen zur Information der Verbraucher über die Erhebung ihrer Daten verpflichtet. Diese Art von Gesetzgebung macht die Speicherung und Sicherheit dieser Daten zur obersten Priorität. Und ohne Tools zur Kontrolle der Datenabstammung wäre das Einhalten der Vorschriften für Unternehmen ein zeitaufwändiges und teures Unterfangen.

Auswirkungsanalyse: Tools zur Datenabstammung können Aufschluss über die Auswirkungen bestimmter geschäftlicher Änderungen geben, z. B. über nachgelagerte Berichte. Wenn sich beispielsweise der Name eines Datenelements ändert, kann die Datenabstammung den Führungskräften Aufschluss darüber geben, wie viele Dashboards davon betroffen sein könnten und wie viele Benutzer anschließend auf diese Berichte zugreifen. Sie kann auch dazu beitragen, die Auswirkungen von Datenfehlern und die Gefährdung im gesamten Unternehmen zu bewerten. Datenfehler können aus einer Vielzahl von Gründen auftreten, was das Vertrauen in bestimmte Business-Intelligence-Berichte oder Datenquellen untergraben kann. Tools zur Datenabstammung können Teams jedoch dabei helfen, sie bis zur Quelle zurückzuverfolgen, wodurch die Datenverarbeitung optimiert und die Kommunikation mit den jeweiligen Teams ermöglicht wird.

IBM Lösungen
IBM Cloud Pak for Data

Ergebnisse schneller voraussagen mithilfe einer Plattform mit Data-Fabric-Architektur. Erheben, organisieren und analysieren Sie Daten unabhängig vom Speicherort.

IBM Cloud Pak for Data
IBM Knowledge Catalog

Aktivieren Sie einsatzbereite Daten für KI und Analysen mit intelligenter Katalogisierung, unterstützt durch aktives Metadaten- und Richtlinienmanagement.

IBM Knowledge Catalog
Machen Sie den nächsten Schritt

Skalieren Sie KI-Workloads für alle Ihre Daten, überall, mit IBM watsonx.data, einem zweckmäßigen Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert.

watsonx.data erkunden Buchen Sie eine Live-Demo