Was ist Datenabstammung?
Erfahren Sie mehr über Datenabstammung und wie Unternehmen diese nutzen, um bessere Geschäftseinblicke zu gewinnen
Zwei Arbeiter sitzen an einem gemeinsam genutzten Schreibtisch und schauen auf Computerbildschirm
Was ist Datenabstammung?

Unter Datenabstammung versteht man den Prozess der Verfolgung des Datenflusses im Zeitverlauf, um einen klaren Überblick über den Ursprung der Daten zu gewinnen, wie sich die Daten verändert haben und an welchem Punkt innerhalb der Daten-Pipeline sich ihr endgültiges Ziel befindet. Datenabstammungstools stellen einen Datensatz über seinen gesamten Lebenszyklus bereit, einschließlich Quellenangabe und etwaiger Datentransformationen, die während jeglicher ETL- oder ELT -Prozesse vorgenommen wurden. Anhand dieser Art der Dokumentation können Benutzer verschiedene Berührungspunkte entlang des Datenweges beobachten und nachverfolgen, um Unternehmen so die Überprüfung auf Genauigkeit und Konsistenz zu ermöglichen. Dies ist eine kritische Funktionalität zur Gewährleistung der Datenqualität innerhalb einer Organisation. Sie wird häufig zur Erzielung von Kontextinformationen über archivierte Prozesse sowie zur Rückverfolgung von Fehlern bis zur zugrunde liegenden Ursache eingesetzt.

Datenabstammung vs. Datenherkunft vs. Datengovernance

Datenabstammung, Datenherkunft und Datengovernance sind Begriffe, die eng miteinander verbunden sind und ineinander übergehen. Zusammen stellen sie sicher, dass ein Unternehmen Datenqualität und Datensicherheit über einen langen Zeitraum aufrechterhalten kann.

Datengovernance schafft Struktur innerhalb von Unternehmen zur Verwaltung von Datenressourcen, indem Dateneigentümer, Geschäftsbedingungen, Regeln, Richtlinien und Prozesse während des gesamten Lebenszyklus der Daten definiert werden. Lösungsansätze zur Datenabstammung helfen Datengovernance-Team bei der Sicherstellung, dass die Daten diesen Standards entsprechen, und liefern Transparenz und Einblicke, wie sich Daten innerhalb der Pipeline verändern. Datenherkunft wird typischerweise im Kontext von Datenabstammung verwendet, bezieht sich aber gezielt auf die erste Instanz dieser Daten oder deren Quelle.

Datenabstammung bietet ein extrem differenziertes Überprüfungsprotokoll für Daten; diese Art von Detailinformation sind äußerst hilfreich beim Debugging jeglicher Datenfehler, um Data Engineers eine effizientere Fehlersuche sowie eine schnellere Lösungsfindung zu ermöglichen. Während der Geltungsbereich von Datengovernance weiter gefasst ist als Datenabstammung und Datenherkunft, ist dieser Aspekt des Datenmanagement bedeutend für die Durchsetzung von Unternehmensstandards.

Warum Unternehmen Datenabstammung einsetzen

Zuverlässige Daten sind unerlässlich , um verbesserte Entscheidungsfindungen und Prozessoptimierung in sämtlichen geschäftlichen Bereichen voranzubringen – von Vertrieb bis Human Resources. Diese Informationen sind jedoch nur dann von Wert, wenn die Beteiligten dauerhaft Vertrauen in ihre Genauigkeit haben, denn Erkenntnisse sind nur so gut wie die Qualität der Daten. Datenabstammung bietet Transparenz in Bezug auf Änderungen, die infolge von Datenmigrationen, Systemupdates, Fehlern und anderen Ereignissen auftreten können und gewährleistet so die Datenintegrität während des gesamten Daten-Lebenszyklus.

Datenabstammung dokumentiert die Beziehung zwischen Unternehmensdaten in verschiedenen Geschäfts- und IT-Anwendungen. Diese Einzelangaben können folgende Informationen enthalten:

  • Wo sich Daten befinden und wie sie in einer Umgebung gespeichert werden, beispielsweise lokal vor Ort, in einem Data-Warehouse oder in einem Data-Lake.
  • Wie die Daten verwendet werden können und wer für die Aktualisierung, Verwendung und Änderung der Daten verantwortlich ist. Dies schließt auch die Rollen und Anwendungen ein, die berechtigt sind für den Zugriff auf bestimmte vertrauliche Datensegmente, z. B. personenbezogene Daten (PII).
  • Tracking-Daten, die von geschäftlichen Benutzern und Anwendungen erstellt, hochgeladen und geändert wurden. Dies können beispielsweise das Hinzufügen von Kontakten zu einem Customer-Relationship-Management- (CRM) System oder eine Datentransformation wie das Löschen doppelter Datensätze sein.
  • Daten, die von verschiedenen Unternehmensbereichen erstellt und integriert wurden, beispielsweise Netzhardware und Server.
Funktionsweise der Datenabstammung

Metadaten ermöglichen den Benutzern von Datenabstammungstools vollständigen Überblick über den Datenfluss durch die Daten-Befehlskette. Metadaten sind die "Daten über die Daten", die verschiedene Informationen über die Datenressourcen wie beispielsweise Typ, Format, Struktur, Autor, Erstellungsdatum, Änderungsdatum und Dateigröße enthalten. Datenabstammungstools bieten ein vollständiges Bild der Metadaten und dienen Benutzern als Leitfaden, um zu bestimmen, wie nützlich diese Daten für sie sind.

Mit dem Aufkommen von Big Data hat sich die Art und Weise, wie wir Daten speichern und wiederverwenden, in den letzten Jahren weiterentwickelt. Unternehmen investieren verstärkt im Bereich Data Science um Entscheidungsfindung und Unternehmensergebnisse zu verbessern. Damit sie jedoch eine korrekt formatierte Analyse erstellen können, müssen sie Datenabstammungstools und Datenkataloge für Übungen zur Datenermittlung und Datenzuordnung einsetzen. Während Datenabstammungstools die Datenentwicklung im Zeitverlauf über Metadaten anzeigen, setzt ein Datenkatalog dieselben Informationen ein, um ein durchsuchbares Inventar sämtlicher Datenressourcen eines Unternehmens zu erstellen. Zusammen ermöglichen sie es Datennutzern, den Stellenwert verschiedener Datenelemente hinsichtlich eines bestimmten Ergebnisses zu verstehen, was einen grundlegenden Baustein für die Entwicklung jeglicher Algorithmen für maschinelles Lernen darstellt.

Anwendungsfälle für Datenabstammung

Heutige Unternehmen haben einen zunehmenden Bedarf an Einblicken in Echtzeit, aber diese Erkenntnisse erfordern profunde Kenntnisse der Daten und deren Weg durch die Pipeline. Zu den Möglichkeiten, wie Teams den Nutzen von End-to-End- Datenabstammungstools optimal zur Verbesserung von Workflows einsetzen können, gehören die folgenden Aspekte:

Datenmodellierung: Zur Erstellung grafisch orientierter Darstellungen der verschiedenen Datenelemente und ihrer entsprechenden Verknüpfungen innerhalb eines Unternehmens müssen diese die zugrunde liegenden Datenstrukturen festlegen, die sie unterstützen. Datenabstammung unterstützt beim Modellieren dieser Zusammenhänge, indem sie die unterschiedlichen Abhängigkeiten im gesamten Datenökosystem bildlich darstellt.  Da sich Daten über die Zeit weiterentwickeln, kommen immer wieder neue Datenquellen auf, neue Datenintegrationen müssen durchgeführt werden, usw. Daher muss sich das gesamte Datenmodell, das Unternehmen für ihre Datenverwaltung einsetzen, ebenfalls der sich ändernden Umgebung anpassen. Datenabstammung hilft dabei, diese Änderungen im Zeitverlauf anhand von Datenmodell-Diagrammen abzubilden, in denen neue oder veraltete Zusammenhänge oder Tabellen hervorgehoben werden. Dies wiederum erleichtert Analysten und Data Scientists die Erstellung erkenntnisreicher und zeitnaher Analysen, da sie die Datasets besser verstehen.

Datenmigration: Beim Verschieben von Daten auf ein neues Speichersystem oder beim Onboarding neuer Software verwenden Organisationen Datenmigration ein, um die Speicherorte und den Lebenszyklus der Daten zu verstehen. Da die Datenabstammung einen Hinweis auf den Verlauf dieser Daten im Unternehmen liefern, bietet sie Unterstützung für die Teams bei der Planung dieser Systemmigrationen oder -Upgrades und beschleunigt den gesamten Übergang zur neuen Speicherumgebung. Es bietet Teams zudem die Gelegenheit zur Bereinigung des Datensystems, zum Archivieren oder Löschen veralteter, nicht mehr relevanter Daten; dies wiederum kann die Gesamtleistung des System erhöhen und das zu verwaltende Datenvolumen reduzieren.

Konformität: Datenabstammung stellt einen Einhaltungsmechanismus für Überprüfung bereit. Dies sorgt für verbessertes Risikomanagement und gewährleistet, dass die Speicherung und Verarbeitung von Daten in Übereinstimmung mit den Richtlinien und behördlichen Bestimmungen zur Datengovernance erfolgt. So wurde 2016 die DSGVO-Gesetzgebung geschaffen, um die persönlichen Daten von Personen in der Europäischen Union und dem Europäischen Wirtschaftsraum zu schützen und dem Einzelnen mehr Kontrolle über seine Daten zu geben. In den Vereinigten Staaten haben einzelne Bundesstaaten Richtlinien, wie z. B. den California Consumer Privacy Act (CCPA) entwickelt, die Unternehmen dazu verpflichten, Verbraucher über die Sammlung ihrer Daten zu informieren. Durch diese Art von Gesetzesvorschriften wird die Speicherung und Sicherheit dieser Daten zur obersten Priorität, und ohne die Unterstützung von Datenabstammungstools wären Probleme wegen fehlender Einhaltung der Konformität ein zeit- und kostenintensives Thema.

Wirkungsanalyse:Datenabstammungstools können Transparenz in Bezug auf die Auswirkung bestimmter geschäftlicher Änderungen, beispielsweise nachgelagerte Berichterstattung, bieten. Ändert sich beispielsweise der Name eines Datenelement, kann die Datenabstammung Führungskräften dabei helfen, einen Überblick darüber zu erhalten, auf viele Dashboards dies sich möglicherweise auswirkt und wie viele Benutzer anschließend auf dieses Reporting zugreifen. Zudem können anhand von Datenabstammung die Auswirkungen von Datenfehlern und die Beeinträchtigung der Datensicherheit im gesamten Unternehmen bewertet werden. Datenfehler können aus einer Vielzahl von Gründen auftreten, was das Vertrauen in bestimmte Business-Intelligence-Berichte oder in Datenquellen möglicherweise schmälern kann. Datenabstammungstools können Teams jedoch dabei unterstützen, Fehler bis zur Quelle zurückzuverfolgen und so dem jeweiligem Team optimierte Datenverarbeitung und Kommunikation zu ermöglichen.

IBM Lösungen
IBM Cloud Pak for Data

Ermöglichen Sie die schnellere Vorhersage von Ergebnissen mit einer Plattform, die auf einer Data-Fabric-Architektur basiert. Sammeln, organisieren und analysieren Sie Daten, ganz unabhängig davon, wo sie gespeichert sind.

IBM Cloud Pak for Data
IBM Watson Knowledge Catalog

Aktivieren Sie geschäftsfähige Daten für KI und Analysen mit einem intelligenten Datenkatalog, der durch aktives Metadaten- und Richtlinienmanagement gestützt wird.

IBM Watson Knowledge Catalog
Machen Sie den nächsten Schritt

IBM Cloud Pak for Data nutzt Microservices und sein führendes Daten- und KI-Leistungsspektrum, um die intelligente Integration verteilter Datensysteme zu automatisieren und Unternehmen eine ganzheitliche Sicht der Unternehmensleistung zu bieten. Dies erleichtert die schnellere Zusammenstellung, Organisation und Einsicht in Unternehmensdaten und ermöglicht es Unternehmen, Entscheidungen im richtigen Maß zu treffen. Datenmanagement-Teams können zudem darauf vertrauen, dass ihre Daten sicher sind – mit konkurrenzfähigen IBM Sicherheitsframeworks zur Gewährleistung der Einhaltung regulatorischer Richtlinien und Reduzierung jeglicher Compliancerisiken. Finden Sie heraus, wie IBM® Cloud Pak for Data und IBM Streams Sie dabei unterstützen können, die Datenarchitektur Ihres Unternehmens über Datenabstammung über mehrere Umgebungen hinweg zu verstehen und zu verwalten.

Weitere Informationen zu IBM Cloud Pak for Data