Laut einer neuen Studie des IBM Institute for Business Value kann die Pflege einer dynamischen Datenumgebung Unternehmen bei der Beschleunigung ihres Wachstums unterstützen. Doch wie können Unternehmen feststellen, ob ihre Daten tatsächlich aussagekräftig sind und das Wachstum fördern?
Die Verwendung von Datenqualitätsmetriken kann helfen.
Datenqualitätsmetriken sind quantitative Metriken zur Bewertung der Qualität von Daten . Unternehmen können Metriken zur Datenqualität nutzen, um die Datenqualität im Zeitverlauf zu verfolgen und zu überwachen. So lassen sich hochwertige Daten identifizieren, die für datengestützte Entscheidungsfindung und Anwendungsfälle im Bereich künstliche Intelligenz (KI) geeignet sind.
Die Metriken variieren je nach Unternehmen und können traditionelle Datenqualitätsdimensionen wie Genauigkeit, Aktualität und Eindeutigkeit sowie spezifische Merkmale moderner Datenpipelines wie die Pipeline-Dauer widerspiegeln. Mithilfe von Metriken können Dimensionen der Datenqualität numerischen Werten zugeordnet werden.
Automatisierte und maschinell lernende Tools zur Datenqualität können Dateningenieure dabei unterstützen, Datenqualitätskennzahlen zu bewerten und Probleme mit der Datenqualität in Echtzeit zu erkennen. Dies ermöglicht es Unternehmen und ihren Datenteams, die erforderlichen Maßnahmen zu ergreifen, um die Vertrauenswürdigkeit und Zuverlässigkeit ihrer Datensätze und Datenpipelines zu optimieren.
Hochwertige, zuverlässige Daten sind ein Ziel vieler moderner Unternehmen – und das aus gutem Grund.
Gute Daten tragen zu wertvoller Business Intelligence, betrieblicher Effizienz, optimierten Arbeitsabläufen, Einhaltung gesetzlicher Vorschriften, Kundenzufriedenheit, Unternehmenswachstum und Fortschritten bei wichtigen Leistungsindikatoren (KPIs) bei. Eine hohe Datenqualität ist auch kritisch für effektive KI-Initiativen, da KI-Modelle auf zuverlässigen, genauen Daten trainiert werden müssen, um nützliche Ausgaben zu liefern.
Um diese Vorteile nutzen zu können, müssen Unternehmen jedoch sicherstellen, dass ihre Daten wirklich von hoher Qualität sind. Dabei spielen Datenqualitätsmetriken eine Schlüsselrolle. Mithilfe von Datenqualitätsmetriken können Sie die Qualität Ihrer Daten ermitteln, indem Sie Datenqualitätsdimensionen numerischen Werten wie Punktzahlen zuordnen.1
Durch die Bewertung der Datenqualität können Unternehmen die Verwendbarkeit ihrer Daten für Geschäftsentscheidungen und das Training von KI-Modellen bestimmen. Durch Datenqualitätsmaßnahmen identifizierte Daten von geringer Qualität können oft durch Datenbereinigungsmaßnahmen verbessert werden.
Sechs traditionelle Dimensionen, die durch Datenqualitätsmetriken verfolgt werden, sind:
Gängige Dimensionen der Datenqualität lassen sich oft anhand einfacher Verhältnisse messen, beispielsweise dem Verhältnis der Anzahl der bevorzugten Ergebnisse (Anzahl der korrekten Datenpunkte, gültigen Dateneinträge usw.) zur Gesamtzahl der Ergebnisse.2
Eine grundlegende Methode zum Berechnen der Datenvollständigkeit ist beispielsweise:
Vollständigkeit = (Anzahl vollständiger Datenelemente) / (Gesamtzahl der Datenelemente)
Alternativ ist auch die Verwendung einer inversen Metrik möglich, die sich auf fehlerhafte Daten konzentriert:
Vollständigkeit = 1 – [(fehlende Datenelemente) / (Gesamtzahl der Datenelemente)]
Andere Methoden zur Messung von Dimensionen erfordern komplexere Berechnungen.
Beispielsweise können Formeln zur Berechnung der Datenaktualität auf Variablen wie dem Alter der Daten, der Bereitstellungszeit (wann Daten bereitgestellt werden), der Eingabezeit (wann Daten empfangen werden) und der Volatilität (die Zeitspanne, in der die Daten gültig sind) beruhen.
Zusätzlich zu den Metriken, die traditionelle Dimensionen der Datenqualität darstellen, können andere Schlüsselmetriken Unternehmen dabei unterstützen, den reibungslosen Betrieb ihrer Datenpipelines zu gewährleisten. Einige Beispiele:
Mehr erfahren Sie über die wichtigsten Metriken der Datenqualität für Ihre Umgebung.
Datenqualitätsmetriken unterstützen wichtige Datenprozesse wie Data Governance, Daten-Observability und Datenqualitätsmanagement.
Data Governance ist ein Bereich des Datenmanagements, der durch die Definition und Umsetzung von Richtlinien, Qualitätsstandards und Verfahren für die Erfassung, Speicherung, Verarbeitung und Nutzung von Daten dazu beiträgt, die Datenintegrität und Datensicherheit zu gewährleisten. Datenqualitätsmetriken wie Datenkonsistenz und -vollständigkeit helfen Unternehmen dabei, die Fortschritte bei der Erfüllung von Standards zu bewerten, die durch Governance-Praktiken festgelegt wurden.
Daten-Observability ist die Praxis der Überwachung und Verwaltung von Daten, um deren Qualität, Verfügbarkeit und Zuverlässigkeit in verschiedenen Prozessen, Systemen und Pipelines innerhalb eines Unternehmens sicherzustellen. Zu den Datenqualitätsmetriken, die durch Datenbeobachtungspraktiken verfolgt werden, gehören die Aktualität der Daten, die Anzahl der Nullwerte und Schemaänderungen.
Datenqualität oder DQM ist eine Sammlung von Verfahren zur Verbesserung und Aufrechterhaltung der Qualität der Daten eines Unternehmens. Eine zentrale DQM-Praxis ist das Datenprofiling, bei dem die Struktur und der Inhalt vorhandener Daten überprüft werden, um deren Qualität zu bewerten und eine Basislinie für die Messung von Sanierungsmaßnahmen festzulegen. Die Datenqualität wird anhand von Datenqualitätsdimensionen und -metriken bewertet.
Durch Profiling aufgedeckte schlechte Datenqualität kann durch eine weitere DQM-Maßnahme behoben werden: die Datenbereinigung. Datenbereinigung, auch bekannt als Datenreinigung, ist die Korrektur von Datenfehlern und Inkonsistenzen in Rohdatensätzen. Die Datenbereinigung ist ein wichtiger erster Schritt bei der Datentransformation, bei der Rohdaten in ein für die Analyse nutzbares Format umgewandelt werden.
Softwarelösungen können eine Echtzeit-Überwachung der Datenqualität bieten, einschließlich der Verfolgung der Leistung anhand von Datenqualitätskennzahlen. Führende Lösungen können u. a. folgende Funktionen enthalten:
Eine aggregierte Anzeige der Pipelines und Datenbestände Ihres Unternehmens ermöglicht das Datenvorfallmanagement über den gesamten Datenstack hinweg.
Überwachung der Datenqualität und Verstöße gegen Service Level Agreements (SLA) in Bezug auf fehlende Datenlieferungen, Schemaänderungen und Anomalien.
Maßgeschneiderte, automatisierte Alerts, die über Tools und Plattformen wie Slack, PagerDuty und E-Mail an die Datenverantwortlichen gesendet werden.
Grafiken zu den täglich geschriebenen und gelesenen Zeilen und Vorgängen können Unternehmen dabei unterstützen, wichtige Trends und problematische Muster zu erkennen.
Die End-to-End-Datenabstammung zeigt abhängige Datensätze und Pipelines, die von Datenqualitätsproblemen betroffen sind.
IBM bietet Lösungen zur Datenqualität, die wichtige Dimensionen wie Genauigkeit, Vollständigkeit und Konsistenz optimieren.
IBM Databand bietet eine Echtzeit-Überwachung der Datenqualität, um Probleme mit schlechter Datenqualität zu erkennen und eine bessere Datenqualität sicherzustellen.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
1, 2 „A Survey of Data Quality Measurement and Monitoring Tools“. Frontiers in Big Data. 30. März 2022.