Was ist Datenqualitätsmanagement?

Eine Frau sitzt an einem Tresen, umgeben von großen Computermonitoren, auf denen Grafiken angezeigt werden.

Autoren

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Was ist Datenqualitätsmanagement?

Datenqualität oder DQM ist eine Sammlung von Verfahren zur Verbesserung und Aufrechterhaltung der Qualität der Daten eines Unternehmens.

 

Da die weltweite Produktion von Daten in atemberaubendem Tempo weiter zunimmt, hilft ein effektives Datenqualitätsmanagement Unternehmen dabei, Daten von geringer Qualität zu vermeiden, die zu kostspieligen Fehlern und Ineffizienzen in Geschäftsprozessen führen können. Mit vertrauenswürdigen, zuverlässigen Daten, die jederzeit verfügbar sind, können Unternehmen wertvolle Erkenntnisse gewinnen, bessere Entscheidungen treffen und künstliche Intelligenz (KI) in ihre Geschäftsabläufe integrieren.

Das Datenqualitätsmanagement umfasst Praktiken wie Datenprofilierung, Datenbereinigung, Datenvalidierung, Datenqualitätsüberwachung und Metadatenmanagement. Ein erfolgreiches Datenqualitätsmanagement führt zu Datensätzen, die hinsichtlich wichtiger Qualitätsdimensionen wie Genauigkeit, Vollständigkeit, Konsistenz, Aktualität, Eindeutigkeit und Gültigkeit optimiert sind.

Softwarelösungen können Unternehmen und Datenexperten dabei helfen, Probleme mit der Datenqualität zu beheben und hochwertige Datenpipelines zu erstellen. Diese Tools bieten Funktionen wie Datenqualitätsanalyse, automatische Anomalieerkennung, Vorfallwarnungen in Echtzeit und mehr.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Warum ist Datenqualitätsmanagement wichtig?

Um die Bedeutung des Datenqualitätsmanagements zu verstehen, bedenken Sie, was ohne dieses Management passieren kann: Da Unternehmen datengesteuerte Funktionen priorisieren, kann eine schlechte Datenqualität unter anderem zu Fehlern, Verzögerungen, finanziellen Verlusten und Reputationsschäden führen. Solche Risiken vervielfachen sich im Zeitalter von „Big Data“, da Unternehmen mit riesigen und komplexen Datensätzen zu kämpfen haben.

Stellen Sie sich die folgenden Szenarien mit „fehlerhaften Daten“ vor:

  • Die Kundendaten eines Einzelhändlers sind voller Ungenauigkeiten, was zu fehlgeleiteten und ineffektiven Marketingstrategien führt.

  • Eine klinische Studie enthält uneinheitliche Formate, was den Vergleich von Datenelementen erschwert und die Forschung zum Krankheitsverlauf und zur Gesundheitsversorgung behindert.

  • Ein Unternehmen in einer stark regulierten Branche hat mit Datenqualitätsproblemen zu kämpfen und verstößt gegen gesetzliche Vorschriften und Bestimmungen wie die DSGVO oder den Sarbanes-Oxley Act (SOX).

Im Gegensatz dazu tragen hochwertige Daten zu Business Intelligence-Initiativen bei und sorgen für betriebliche Effizienz, optimierte Arbeitsabläufe, Einhaltung gesetzlicher Vorschriften, Kundenzufriedenheit und Unternehmenswachstum.

Die Vorteile einer hohen Datenqualität haben sich mit der weit verbreiteten Einführung von künstlicher Intelligenz noch weiter verstärkt. Algorithmen benötigen hochwertige Daten für eine effektive Modellleistung. Eine gute Datenqualität ermöglicht präzisere und nützlichere Ergebnisse von KI-Modellen.

Tatsächlich erzielten Unternehmen mit großen Datenbeständen, denen interne und externe Stakeholder vertrauen, laut einer Untersuchung des IBM Institute for Business Value fast doppelt so hohe Renditen aus ihren KI-Fähigkeiten.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Was sind die sechs Dimensionen der Datenqualität?

Ein erfolgreiches Datenqualitätsmanagement stellt sicher, dass die Daten eines Unternehmens sechs wichtige Datenqualitätsdimensionen erfüllen:

  • Genauigkeit
  • Vollständigkeit
  • Konsistenz
  • Aktualität
  • Einzigartigkeit
  • Gültigkeit
Datengenauigkeit

Die Gewährleistung der Datengenauigkeit – also Daten, die reale Ereignisse und Werte korrekt wiedergeben – erfordert die Identifizierung und Korrektur von Fehlern oder Falschdarstellungen in einem Datensatz.

Datenvollständigkeit

Die Vollständigkeit der Daten ist gegeben, wenn ein Datensatz alle erforderlichen Datensätze enthält und keine Lücken oder Missing Values aufweist.

Datenkonsistenz

Konsistente Daten sind innerhalb eines Unternehmens kohärent und standardisiert, sodass Datensätze in verschiedenen Datensätzen miteinander kompatibel sind.

Datenaktualität

Die Datenaktualität ist ein Maß dafür, wie aktuell Datenwerte sind, und ermöglicht es Unternehmen, Entscheidungen auf der Grundlage veralteter Informationen zu vermeiden.

Dateneindeutigkeit

Unter Dateneindeutigkeit versteht man das Fehlen redundanter Daten oder doppelter Datensätze, die die Analyse verzerren können.

Datenvalidität

Die Datenvalidität gibt an, ob Daten den Geschäftsregeln entsprechen, z. B. ob sie innerhalb der zulässigen Bereiche für bestimmte Datenwerte liegen und festgelegte Datenformatstandards erfüllen.

Dies sind zwar die von Datenexperten am häufigsten verwendeten Dimensionen der Datenqualität, doch gibt es noch weitere Metriken, darunter Zugänglichkeit, Relevanz, prägnante Darstellung und angemessene Datenmenge oder -volumen.1

Welche Praktiken umfasst das Datenqualitäts-Management?

Zu den gängigen, sich ergänzenden Praktiken des Datenqualitätsmanagements unter Dateneignern und anderen Datenexperten gehören:

  • Datenprofilierung
  • Datenbereinigung
  • Datenvalidierung
  • Überwachung der Datenqualität
  • Metadatenverwaltung

Datenprofilierung

Bevor Daten verbessert werden, muss zunächst ermittelt werden, wo Verbesserungsbedarf besteht. Datenprofilierung ist der Prozess der Überprüfung der Struktur und des Inhalts vorhandener Daten, um deren Qualität zu bewerten und eine Basislinie für die Messung von Sanierungsmaßnahmen festzulegen.

Die während der Datenprofilierung durchgeführte Analyse kann Informationen zu Datentypen liefern, Anomalien aufdecken, ungültige oder unvollständige Datenwerte identifizieren und Beziehungen zwischen Datensätzen bewerten.

Datenbereinigung

Datenbereinigung, auch bekannt als Datenreinigung, ist die Korrektur von Fehlern und Inkonsistenzen in Rohdatensätzen. Methoden zur Erzielung sauberer Daten umfassen Standardisierung (Vereinheitlichung von Formaten und Strukturen), Anpassung oder Entfernung von Sonderfällen, Datendeduplizierung und das Adressieren fehlender Werte.

Datenvalidierung

Die Datenvalidierung wird manchmal als Teil der Datenbereinigung betrachtet und ist die Überprüfung, ob Daten sauber und korrekt sind und bestimmte Datenqualitätsregeln und -anforderungen (wie Bereichs- oder Referenzintegritätsbeschränkungen) erfüllen, damit sie verwendet werden können.

Überwachung der Datenqualität

Die Sicherstellung der Datenqualität ist ein fortlaufender Prozess. Schemaänderungen, Datenveraltung und doppelte Datensätze können die Datenintegrität im Laufe der Zeit beeinträchtigen. Durch kontinuierliche Datenüberwachung werden vorhandene Daten-Assets identifiziert, die nicht mehr den Datenqualitätsstandards und Key Performance Indicators (KPIs) eines Unternehmens entsprechen.

Metadatenverwaltung

Während die Metadatenverwaltung mehrere Funktionen, wie Sicherheit und Governance, unterstützt, wird sie oft unter dem Oberbegriff DQM zusammengefasst. Metadaten-Managementtechniken wie die Anreicherung von Metadaten können sicherstellen, dass Metadaten Informationen zu Datenregeln, Datendefinitionen und Datenherkunft enthalten. Dies kann die Datenverwaltung, einschließlich Initiativen zur Verbesserung der Datenqualität, optimieren und rationalisieren.

Datenqualitätsmanagement im Vergleich zu anderen Datenprozessen

Datenqualitätsmanagement, Datenmanagement, Stammdatenmanagement und Data Governance sind unterschiedliche, aber miteinander verbundene Prozesse zur Optimierung des Werts der Daten-Assets eines Unternehmens.

Datenverwaltung

Datenverwaltung umfasst die Überwachung und Handhabung von Daten während ihres gesamten Lebenszyklus. Datenverwaltungsstrategien helfen Unternehmen dabei, die Nutzung verschiedener Datenquellen zu bewältigen und die Notfallwiederherstellung zu planen, unter anderem bei anderen Problemen. Datenqualitätsmanagement kann als Disziplin oder Teilbereich der Datenverwaltung betrachtet werden.

Master Data Management

Master Data Management ist ein umfassender Ansatz, der Konsistenz für die Handhabung kritischer Daten (Stammdaten) im Unternehmen schafft.

Durch Stammdatenmanagement werden wichtige Daten von verschiedenen Anwendungen und Systemen innerhalb des Unternehmens gemeinsam genutzt, um Datenfragmentierung, isolierte Daten, Duplikate und Ungenauigkeiten zu reduzieren. Dies geschieht durch eine Reihe von Prozessen und technologischen Tools, von denen einige auch in das Datenqualitätsmanagement integriert sind, wie beispielsweise die Datenbereinigung.

Data Governance

Data Governance definiert und implementiert Richtlinien, Standards und Verfahren für die Datenerfassung, Datenspeicherung, Eigentumsrechte, Verarbeitung und Nutzung. Wie das Datenqualitätsmanagement kann auch die Daten-Governance als Disziplin der Datenverwaltung betrachtet werden. Gleichzeitig können die durch Data-Governance-Frameworks festgelegten Verfahren, wie beispielsweise Governance-Richtlinien für den einheitlichen Umgang mit Daten, DQM-Initiativen unterstützen.

Tools für das Datenqualitätsmanagement

Datenqualitätsmanagement-Tools und Softwarelösungen können den manuellen Aufwand für das DQM erheblich reduzieren. Und während die Verbreitung von KI einer der treibenden Faktoren für den Bedarf an Datenqualitätsmanagement ist, ermöglicht KI auch leistungsfähigere DQM-Lösungen. Maschinelles Lernen kann beispielsweise zur automatisierten Erkennung von Datenanomalien eingesetzt werden.

Weitere Funktionen von Datenqualitätsmanagement-Lösungen sind:

  • Vordefinierte Datenqualitätsprüfungen und anpassbare Regeln

  • Datenkataloge mit integrierter Datenqualitätsanalyse

  • Umfassende Dashboards für das Datenvorfallmanagement

  • Echtzeit-Alerts für Anomalien und andere Datenprobleme

  • Ursachenanalyse zur Lösung von Vorfällen

  • Verfolgung der Herkunft von Metadaten für Transparenz bei der Datenkonvertierung
Fußnoten