Startseite
Themen
Datenabstammung
Die Datenabstammung ist der Prozess der Verfolgung des Datenflusses im Laufe der Zeit, der ein klares Verständnis für die Herkunft der Daten, ihre Veränderung und ihren endgültigen Bestimmungsort innerhalb der Datenpipeline vermittelt.
Tools zur Nachverfolgung der Datenabstammung ermöglichen die Aufzeichnung von Daten während ihres gesamten Lebenszyklus, einschließlich der Quellinformationen und aller Datentransformationen, die während ETL- oder ELT-Prozessen angewendet wurden.
Diese Art der Dokumentation ermöglicht es den Benutzern, verschiedene Kontaktpunkte entlang des Datenpfads zu beobachten und zu verfolgen, sodass Unternehmen die Richtigkeit und Konsistenz überprüfen können. Dies ist eine entscheidende Fähigkeit, um die Datenqualität innerhalb eines Unternehmens sicherzustellen. Sie wird häufig verwendet, um Kontextinformationen über historische Prozesse zu erhalten und Fehler bis zur Ursache zurückzuverfolgen.
Erfahren Sie, wie Sie die richtigen Datenbanken für Anwendungen, Analysen und generative KI nutzen.
Datenabstammung, Datenherkunft und Datenverwaltung sind eng miteinander verwandte Begriffe, die ineinander übergehen. Zusammen stellen sie sicher, dass eine Organisation die Datenqualität und Datensicherheit langfristig aufrechterhalten kann.
Data Governance schafft innerhalb von Unternehmen eine Struktur zur Verwaltung von Datenbeständen, indem Dateneigentümer, Geschäftsbedingungen, Regeln, Richtlinien und Prozesse während des gesamten Datenlebenszyklus definiert werden. Mithilfe von Lösungen zur Datenherkunft können Data-Governance-Teams sicherstellen, dass Daten diesen Standards entsprechen, und sie erhalten Einblick in die Art und Weise, wie sich Daten innerhalb der Pipeline verändern. Der Begriff Datenabstammung wird in der Regel im Zusammenhang mit der Datenherkunft verwendet, bezieht sich jedoch speziell auf die erste Instanz dieser Daten oder ihre Quelle.
Die Datenabstammung bietet einen Prüfpfad für Daten auf einer sehr granularen Ebene. Diese Art von Detail ist für die Behebung von Datenfehlern unglaublich hilfreich und ermöglicht Dateningenieuren eine effektivere Fehlerbehebung und eine schnellere Identifizierung von Lösungen. Während der Umfang der Datenverwaltung breiter ist als der der Datenabstammung und Datenherkunft, ist dieser Aspekt der Datenverwaltung ein wichtiger Faktor bei der Durchsetzung von betrieblichen Standards.
Zuverlässige Daten sind unerlässlich, um bessere Entscheidungen zu treffen und Prozesse in allen Geschäftsbereichen zu verbessern – vom Vertrieb bis hin zur Personalabteilung. Diese Informationen sind jedoch nur dann wertvoll, wenn die Stakeholder weiterhin auf ihre Richtigkeit vertrauen, da Erkenntnisse nur so gut wie die Qualität der Daten sind. Die Datenabstammung gibt Aufschluss über Änderungen, die sich aus Datenmigrationen, Systemaktualisierungen, Fehlern und mehr ergeben können, und gewährleistet die Datenintegrität während des gesamten Lebenszyklus.
Die Datenabstammung dokumentiert die Beziehung zwischen Unternehmensdaten in verschiedenen Geschäfts- und IT-Anwendungen. Diese Details können Folgendes umfassen:
Metadaten ermöglichen es den Benutzern von Tools für die Datenabstammung, den Weg der Daten durch die Datenpipeline vollständig nachzuvollziehen. Metadaten sind die „Daten über die Daten“, die verschiedene Informationen über die Datenbestände enthalten, wie z. B. Typ, Format, Struktur, Autor, Erstellungsdatum, Änderungsdatum und Dateigröße. Tools für die Datenabstammung liefern ein vollständiges Bild der Metadaten, um die Benutzer bei der Bestimmung des Nutzens der Daten für sie zu unterstützen.
In den letzten Jahren hat sich die Art und Weise, wie wir Daten speichern und nutzen, mit der Entwicklung von Big Data weiterentwickelt. Unternehmen investieren mehr in Data Science, um die Entscheidungsfindung und die Geschäftsergebnisse voranzutreiben. Um jedoch eine fundierte Analyse erstellen zu können, müssen sie Datenherkunftstools und Datenkataloge für die Datenerfassung und Datenzuordnung verwenden. Während Tools für die Datenabstammung die Entwicklung von Daten im Laufe der Zeit über Metadaten anzeigen, verwendet ein Datenkatalog dieselben Informationen, um ein durchsuchbares Verzeichnis aller Datenbestände in einer Organisation zu erstellen. Zusammen ermöglichen sie es den Datennutzern, die Bedeutung verschiedener Datenelemente für ein bestimmtes Ergebnis zu verstehen, was für die Entwicklung von Algorithmen für maschinelles Lernen von grundlegender Bedeutung ist.
Unternehmen benötigen heutzutage immer mehr Echtzeit-Einblicke, aber diese Erkenntnisse hängen vom Verständnis der Daten und ihrer Reise durch die Pipeline ab. Zu den Möglichkeiten, wie Teams End-to-End-Tools für die Datenabstammung zur Verbesserung von Arbeitsabläufen nutzen können, gehören:
Datenmodellierung: Um visuelle Darstellungen der verschiedenen Datenelemente und ihrer entsprechenden Verknüpfungen innerhalb eines Unternehmens zu erstellen, müssen Unternehmen die zugrunde liegenden Datenstrukturen definieren, die sie unterstützen. Die Datenherkunft hilft bei der Modellierung dieser Beziehungen und veranschaulicht die verschiedenen Abhängigkeiten im gesamten Datenökosystem. Da sich Daten im Laufe der Zeit weiterentwickeln, werden immer neue Datenquellen erschlossen, neue Datenintegrationen müssen vorgenommen werden usw. Daher muss auch das Gesamtdatenmodell, das Unternehmen zur Verwaltung ihrer Daten verwenden, an die sich ändernde Umgebung angepasst werden. Die Datenabstammung hilft dabei, diese Veränderungen im Laufe der Zeit durch Datenmodelldiagramme genau widerzuspiegeln, indem neue oder veraltete Verbindungen oder Tabellen hervorgehoben werden. Dies wiederum hilft Analysten und Datenwissenschaftlern, wertvolle und zeitnahe Analysen zu erstellen, da sie ein besseres Verständnis der Datensätze haben.
Datenmigration: Wenn Daten in ein neues Speichersystem verschoben oder neue Software integriert wird, nutzen Organisationen die Datenmigration, um die Speicherorte und den Lebenszyklus der Daten zu verstehen. Da die Datenabstammung einen Überblick darüber bietet, wie diese Daten durch das Unternehmen gelaufen sind, unterstützt sie die Teams bei der Planung dieser Systemmigrationen oder -aktualisierungen und beschleunigt den allgemeinen Übergang zur neuen Speicherumgebung. Außerdem bietet sie Teams die Möglichkeit, das Datensystem zu bereinigen, indem alte, irrelevante Daten archiviert oder gelöscht werden. Dies wiederum kann die Gesamtleistung des Datensystems verbessern, indem die zu verwaltende Datenmenge reduziert wird.
Compliance: Die Datenabstammung bietet einen Compliance-Mechanismus für Audits, verbessert das Risikomanagement und stellt sicher, dass Daten in Übereinstimmung mit den Richtlinien und Vorschriften der Datenverwaltung gespeichert und verarbeitet werden. So wurde beispielsweise im Jahr 2016 die DSGVO-Gesetzgebung geschaffen, um die personenbezogenen Daten von Menschen in der Europäischen Union und im Europäischen Wirtschaftsraum zu schützen und Einzelpersonen mehr Kontrolle über ihre Daten zu geben. In den Vereinigten Staaten haben einzelne Bundesstaaten, wie Kalifornien, Richtlinien wie den California Consumer Privacy Act (CCPA) entwickelt, der Unternehmen zur Information der Verbraucher über die Erhebung ihrer Daten verpflichtet. Diese Art von Gesetzgebung macht die Speicherung und Sicherheit dieser Daten zur obersten Priorität. Und ohne Tools zur Kontrolle der Datenabstammung wäre das Einhalten der Vorschriften für Unternehmen ein zeitaufwändiges und teures Unterfangen.
Auswirkungsanalyse: Tools zur Datenabstammung können Aufschluss über die Auswirkungen bestimmter geschäftlicher Änderungen geben, z. B. über nachgelagerte Berichte. Wenn sich beispielsweise der Name eines Datenelements ändert, kann die Datenabstammung den Führungskräften Aufschluss darüber geben, wie viele Dashboards davon betroffen sein könnten und wie viele Benutzer anschließend auf diese Berichte zugreifen. Sie kann auch dazu beitragen, die Auswirkungen von Datenfehlern und die Gefährdung im gesamten Unternehmen zu bewerten. Datenfehler können aus einer Vielzahl von Gründen auftreten, was das Vertrauen in bestimmte Business-Intelligence-Berichte oder Datenquellen untergraben kann. Tools zur Datenabstammung können Teams jedoch dabei helfen, sie bis zur Quelle zurückzuverfolgen, wodurch die Datenverarbeitung optimiert und die Kommunikation mit den jeweiligen Teams ermöglicht wird.
Ergebnisse schneller voraussagen mithilfe einer Plattform mit Data-Fabric-Architektur. Erheben, organisieren und analysieren Sie Daten unabhängig vom Speicherort.
Aktivieren Sie einsatzbereite Daten für KI und Analysen mit intelligenter Katalogisierung, unterstützt durch aktives Metadaten- und Richtlinienmanagement.