Was ist Datenherkunft?

Digital generiertes Bild mit dunkelblauen Würfeln, die sich miteinander verbinden

Was ist Datenherkunft?

Die Datenherkunft ist die historische Aufzeichnung von Daten, die die Herkunft der Daten detailliert beschreibt, indem ihre Metadaten erfasst werden, während sie verschiedene Prozesse und Transformationen durchlaufen. Die Datenherkunft befasst sich in erster Linie mit der Authentizität und liefert Details, wie z. B. wer die Daten erstellt hat, die Änderungshistorie und wer diese Änderungen vorgenommen hat.

Die Datenherkunft schützt die Integrität und Zuverlässigkeit von Daten innerhalb eines Unternehmens, indem sie die Historie der Daten, ihre Umwandlungen und ihren Weg durch verschiedene Prozesse akribisch dokumentiert. Dieser historische Kontext hilft bei der Einhaltung von Vorschriften, da er die Genauigkeit und Legitimität von Daten sicherstellt und gewährleistet, dass Unternehmen die gesetzlichen und branchenüblichen Standards erfüllen. Außerdem erhöht die Datenherkunft die Transparenz und Verantwortlichkeit im Umgang mit Daten, ein entscheidender Aspekt von Cybersicherheit.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Warum ist die Datenherkunft wichtig?

Daten sollten niemals ein Rätsel sein. Da Big Data jedoch weiter wächst, können sie schnell zu einem werden. Um ihre Geschäftsinteressen sowie die Interessen ihrer Mitarbeitern und Kunden zu schützen, müssen Unternehmen wissen, wo die Daten entstanden sind und wie sie sich durch die Pipeline bewegen und umgewandelt werden.

Für ein Unternehmen, das den größtmöglichen Nutzen aus seinen Daten ziehen möchte, sind Methoden zum Verständnis der Datenherkunft unerlässlich, um Authentizität, Zuverlässigkeit und Datenintegrität zu erhalten. Die Herkunft sorgt für Transparenz bei Forschern und Datenanalysten und bietet eine Informationskette, in der Dateneigner oder Data Scientists Datenprobleme verfolgen können, wenn die Daten für neue Zwecke angepasst werden. Diese umfassende Aufzeichnung gewährleistet, dass die Daten im Entscheidungsprozess korrekt und zuverlässig sind. Wenn Führungskräfte von der Authentizität ihrer Daten überzeugt sind, können sie fundiertere und wirkungsvollere Entscheidungen treffen. Transparenz in der Forschung ist entscheidend für die Nachnutzung und Reproduzierbarkeit von Forschungsergebnissen und schafft eine solide Grundlage für die Datenintegrität.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Datenherkunft im Vergleich zu Datenabstammung

Datenherkunft und Datenabstammung sind eng miteinander verknüpfte Konzepte, dienen aber unterschiedlichen Zwecken. Datenabstammung verfolgt die Bewegung und Umwandlung von Daten oder Datensätzen durch verschiedene Systeme, Prozesse und Anwendungen, wobei der Schwerpunkt darauf liegt, wie die Daten fließen und sich verändern.

Die Datenherkunft ist die Aufzeichnung von Metadaten aus der Quelle der Daten, die den historischen Kontext und die Authentizität liefern. Während die Datenabstammung zur Optimierung und Fehlerbehebung von Datenpipelines beiträgt, hilft die Datenherkunft bei der Validierung und Prüfung von Daten.

Tools zur Datenherkunft

Bei der Datenherkunft werden verschiedene Technologien eingesetzt, um die Vertrauenswürdigkeit von Daten zu verbessern. Dabei geht es darum, Daten von ihrer Erstellung über mehrere Umwandlungen bis hin zu ihrem aktuellen Zustand zu verfolgen und einen detaillierten Verlauf des Lebenszyklus der einzelnen Datenbestände nachzuzeichnen. Abhängigkeiten in Daten verdeutlichen die Beziehungen zwischen Datensätzen, Umwandlungen und Prozessen, bieten einen ganzheitlichen Überblick über die Datenherkunft und zeigen, wie sich Änderungen in einem Teil der Datenpipeline auf andere auswirken können. Wenn es eine Diskrepanz in den Daten gibt, helfen Abhängigkeiten, das Problem auf den spezifischen Prozess, den Ersteller oder den Datensatz zurückzuführen, der es verursacht hat.

Algorithmen werden in diesem Prozess häufig verwendet, um den Datenfluss durch verschiedene Systeme automatisch zu erfassen und zu dokumentieren, was den manuellen Aufwand reduziert und Fehler minimiert. Sie zertifizieren Konsistenz und Genauigkeit, indem sie die Datenverarbeitung standardisieren und die Verfolgung von Datenumwandlungen in Echtzeit ermöglichen. Fortschrittliche Algorithmen können Anomalien oder ungewöhnliche Muster erkennen, um potenzielle Datenintegritätsprobleme oder Sicherheitslücken zu identifizieren. Zur Identifizierung von Ineffizienzen und Einhaltung von Vorschriften verwenden Unternehmen auch Algorithmen und stellen detaillierte und genaue Aufzeichnungen für behördliche Anforderungen bereit.

APIs werden verwendet, um eine nahtlose Integration und Kommunikation zwischen verschiedenen Systemen, Tools und Datenquellen zu ermöglichen. Sie ermöglichen die automatische Erfassung, den Austausch und die Aktualisierung von Herkunftsinformationen über verschiedene Plattformen hinweg, was die Genauigkeit und Vollständigkeit der Herkunftsaufzeichnungen verbessert.

Die Datenherkunft bietet Unternehmen den notwendigen Kontext, um Richtlinien, Standards und Praktiken durchzusetzen, die die Verwendung von Daten innerhalb des Unternehmens regeln. Mehrere Tools unterstützen die Datenherkunft, darunter das CamFlow-Projekt, das Open Source-System Kepler für wissenschaftliche Workflows, Linux Provenance Modules und das Open Provenance Model. Diese Tools sowie Tools zu Datenabstammung, Governance, Management und Observability bilden eine umfassende und effiziente Datenpipeline.

Anwendungsfälle der Datenherkunft

Die Datenherkunft hat praktische Anwendungen in verschiedenen Branchen. Sie hilft dabei, die Vertrauenswürdigkeit von Daten zu gewährleisten, und bietet Datenteams die Möglichkeit, Daten aus zuverlässigen und authentischen Quellen vertrauensvoll zu verwenden.

Überwachung der Datenqualität

Die Überwachung der Datenqualität ist eine beliebte Anwendung der Datenherkunft. Sie ermöglicht Unternehmen, die Ursprünge von Datendiskrepanzen zu verfolgen und zu identifizieren, wann und wo Probleme mit der Datenqualität auftreten. Im Falle eines Sicherheitsvorfalls kann das Verständnis der Herkunft sensibler Daten dabei helfen, die Ursache des Datenproblems zu untersuchen, den Weg nachzuverfolgen und potenzielle Sicherheitsverletzungen oder Richtlinienverstöße zu identifizieren.

Debugging

Die Fehlersuche mit Hilfe von Herkunftsinformationen hilft Entwicklern und Datenanalysten, den Ursprung und die Umwandlung von Daten nachzuvollziehen, Probleme zu erkennen und Fehler effizient zu korrigieren. Diese detaillierten Erkenntnisse zu Datenflüssen und Abhängigkeiten gewährleisten die Genauigkeit und Zuverlässigkeit der Daten und stärken die gesamten Datenmanagementsysteme.

Pharmazeutische Forschung

In der pharmazeutischen Forschung schützt die Datenherkunft die Integrität der in klinischen Studien verwendeten Daten, indem sie deren Herkunft, Änderungen und verantwortliche Personen nachverfolgt. E-Commerce-Unternehmen nutzen die Datenherkunft, um Kundendaten zu verwalten und Empfehlungsmaschinen zu verbessern, indem sie Empfehlungen auf zuverlässige Daten stützen.

Gesundheitswesen

Die Datenherkunft im Gesundheitswesen und in der klinischen Forschung hilft dabei, die Genauigkeit und Zuverlässigkeit sensibler Daten, wie z B. Patientendaten, zu schützen. Genaue Datensätze zur Datenherkunft helfen auch bei der Einhaltung von Datenschutzbestimmungen wie HIPAA und DSGVO.

Lieferketten

Die Datenherkunft garantiert Transparenz in der Lieferkette, indem sie eine digitale Aufzeichnung der Herkunft, der Verarbeitungsschritte und der Zertifizierungen jedes Produkts erstellt. Diese Transparenz ermöglicht die Überprüfung der Echtheit und Qualität der Produkte sowie die Einhaltung von Gesetzen und ethischen Beschaffungspraktiken. Durch die Datenherkunft werden klare Prüfpfade für Datenzugriffe und -manipulationen in der Cybersicherheit erstellt. So können Unternehmen nicht autorisierte Aktivitäten erkennen und schnell auf Sicherheitsvorfälle reagieren.

Best Practices für das Datenherkunftsmanagement

Das Thema Datenherkunft ist schwierig, da es darum geht, die gesamte Historie eines Datenpunkts aus Einzelteilen zusammenzusetzen, einschließlich seiner Quelle und aller Änderungen über verschiedene Systeme hinweg. Es ist wichtig zu bestätigen, dass die Herkunftsinformationen selbst sicher und zuverlässig sind. Die Integration verschiedener Datenquellen, die Verwendung von Standardformaten für Informationen zur Herkunft und der Schutz sensibler Metadaten vor unbefugtem Zugriff stellen für viele Unternehmen eine Herausforderung dar.

Unternehmen sollten ein Data Governance-Framework einrichten, das Regeln und Standards für die Datenverwaltung, einschließlich der Herkunftsnachverfolgung, festlegt, damit die Datenherkunft effektiv verwaltet wird. Die Implementierung von Tracking-Tools wie Blockchain und DLT (Data Lineage Tools) kann den Tracking-Prozess automatisieren und die Genauigkeit der Metadatensätze zur Herkunft verbessern. Die Förderung einer Kultur der Datenverwaltung und -aufklärung hilft den Mitarbeitern, die Wichtigkeit der Datenherkunft zu verstehen, und veranlasst sie, sich an der Pflege korrekter Aufzeichnungen zu beteiligen.

Die Förderung strategischer datenbasierter Initiativen, die mit messbaren wesentlichen Leistungsindikatoren (Key Performance Indicators – KPIs) verknüpft sind, ist unerlässlich, um die Verfahren zur Datenherkunft in den täglichen Betrieb und in der Kultur des Unternehmens zu verankern. Gut entwickelte Initiativen gewährleisten eine kontinuierliche Verbesserung und Einhaltung der sich entwickelnden Vorschriften und tragen dazu bei, mit dem technologischen Fortschritt Schritt zu halten.

Weiterführende Lösungen
IBM Manta Data Lineage

Visualisieren, transformieren und optimieren Sie Ihre Datenbewegungen vom Ursprung bis zum Verbrauch. Wenden Sie Datenabstammung auf jedes Szenario an, um eine größere Datentransparenz und -genauigkeit in Ihrem gesamten Unternehmen zu erreichen.

IBM Manta Data Lineage entdecken
Data Intelligence-Lösungen

Wandeln Sie Rohdaten schnell in umsetzbare Erkenntnisse um, vereinheitlichen Sie Data Governance, Datenqualität, -herkunft und -freigabe und stellen Sie Ihren Datennutzern zuverlässige und kontextualisierte Daten zur Verfügung.

Datenintelligenzlösungen entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Erfahren Sie, wie IBM beim Aufbau einer regulierten, Compliance-fähigen Datengrundlage hilft. Mit IBM Manta Data Lineage gewinnen Sie Datentransparenz, indem Sie den Verlauf, den Fluss und die Ergebnisse Ihrer Daten verfolgen und so umfassende Erkenntnisse ermöglichen.

IBM Manta Data Lineage erkunden Data-Intelligence-Lösungen entdecken