Was ist Datenqualität?
Erfahren Sie mehr über den Stellenwert der Datenqualität und darüber, wie Unternehmen sicherstellen, dass ihre Unternehmensdaten von hoher Qualität, konsistent und für den vorgesehenen Zweck geeignet sind.
Team aus zwei Ingenieuren, die am Computer im Serverraum mit IBM z16 arbeiten
Was ist Datenqualität?

 

Die Datenqualität misst, wie gut ein Dataset die Kriterien für Genauigkeit, Vollständigkeit, Gültigkeit, Konsistenz, Einzigartigkeit, Aktualität und Zweckmäßigkeit erfüllt, und ist für alle Datengovernance-Initiativen in einem Unternehmen von entscheidender Bedeutung. Datenqualitätsstandards stellen sicher, dass Unternehmen datengesteuerte Entscheidungen treffen, um ihre Geschäftsziele zu erreichen. Wenn Datenprobleme, wie kopierte Daten, fehlende Werte, Ausreißer, nicht ordnungsgemäß behandelt werden, nimmt das Risiko negativer Geschäftsergebnisse für die Unternehmen zu. Einem Bericht von Gartner zufolge kostet schlechte Datenqualität Unternehmen durchschnittlich 12,9 Millionen Dollar pro Jahr1. Infolgedessen sind Datenqualitätstools entstanden, um die Beeinträchtigungen einer schlechten Datenqualität abzumildern.

Wenn die Datenqualität dem Standard für den vorgesehenen Gebrauch entspricht, können die Datenkonsumenten den Daten vertrauen und sie zur Verbesserung der Entscheidungsfindung nutzen, was zur Entwicklung neuer Geschäftsstrategien oder zur Optimierung bestehender Strategien führt. Wenn jedoch ein Standard nicht eingehalten wird, bieten Datenqualitätstools einen Mehrwert, indem sie Unternehmen helfen, die zugrunde liegenden Datenprobleme zu diagnostizieren. Eine Ursachenanalyse ermöglicht es den Teams, Probleme mit der Datenqualität schnell und effektiv zu beheben.

Datenqualität ist nicht nur eine Priorität für das Tagesgeschäft. Da Unternehmen künstliche Intelligenz (KI) und Automatisierungstechnologien in ihre Arbeitsabläufe integrieren, sind qualitativ hochwertige Daten entscheidend für die effektive Nutzung dieser Tools. Ein altes Sprichwort besagt: „Garbage in, garbage out“ (Müll rein, Müll raus), und das gilt auch für Algorithmen des maschinellen Lernens. Wenn der Algorithmus lernt, auf der Grundlage schlechter Daten Vorhersagen zu treffen oder zu klassifizieren, ist zu erwarten, dass er ungenaue Ergebnisse liefert.

Datenqualität vs. Datenintegrität vs. Daten-Profiling

Qualität , Datenintegrität und Profiling stehen alle in Wechselbeziehung zueinander Bei der Datenqualität handelt es sich um eine breitere Kategorie von Kriterien, anhand derer Unternehmen ihre Daten auf Richtigkeit, Vollständigkeit, Gültigkeit, Konsistenz, Eindeutigkeit, Aktualität und Zweckmäßigkeit bewerten. Datenintegrität konzentriert sich nur auf einen Teil dieser Attribute, nämlich Genauigkeit, Kohärenz und Vollständigkeit. Sie betrachtet dies auch unter dem Gesichtspunkt der Datensicherheit, indem sie Sicherheitsvorkehrungen zum Schutz vor Datenverfälschung durch böswillige Akteure trifft.

Daten-Profiling hingegen konzentriert sich auf den Prozess der Überprüfung und Bereinigung von Daten, um die Datenqualitätsstandards innerhalb eines Unternehmens aufrechtzuerhalten. Dies kann auch die Technologie umfassen, die diese Prozesse unterstützt.

Dimensionen der Datenqualität

Die Datenqualität wird anhand einer Reihe von Dimensionen bewertet, die sich je nach Informationsquelle unterscheiden können. Diese Dimensionen werden zur Kategorisierung der Messwerte von Datenqualität verwendet:

  • Vollständigkeit: Dies ist das Datenvolumen, das verwendbar oder vollständig ist. Ein hoher Prozentsatz an fehlenden Werten kann zu einer verzerrten oder irreführenden Analyse führen, wenn die Daten nicht repräsentativ für eine typische Datenstichprobe sind.
  • Einzigartigkeit: Damit wird die Menge der doppelten Daten in einem Datensatz berücksichtigt. Wenn Sie zum Beispiel Kundendaten überprüfen, sollten Sie davon ausgehen, dass jeder Kunde eine eindeutige Kunden-ID hat.
  •  Gültigkeit: Diese Dimension misst, inwieweit die Daten dem für die Geschäftsregeln erforderlichen Format entsprechen. Die Formatierung umfasst in der Regel Metadaten, wie z. B. gültige Datentypen, Bereiche, Muster und mehr.
  • Aktualität: Diese Dimension bezieht sich auf die Bereitschaft der Daten innerhalb eines erwarteten Zeitrahmens. So erwarten die Kunden beispielsweise, dass sie unmittelbar nach dem Kauf eine Bestellnummer erhalten, und diese Daten müssen in Echtzeit generiert werden.
  • Genauigkeit: Diese Dimension bezieht sich auf die Richtigkeit der Datenwerte auf der Grundlage der vereinbarten „Quelle der Wahrheit“. Da es mehrere Quellen geben kann, die über dieselbe Kennzahl berichten, ist es wichtig, eine primäre Datenquelle zu bestimmen; andere Datenquellen können verwendet werden, um die Genauigkeit der primären Quelle zu bestätigen. So kann beispielsweise überprüft werden, ob die einzelnen Datenquellen in dieselbe Richtung tendieren, um das Vertrauen in die Datengenauigkeit zu stärken.
  • Kohärenz:Diese Dimension wertet Datensätze aus zwei verschiedenen Datensätzen aus. Wie bereits erwähnt, können mehrere Quellen identifiziert werden, um über eine einzige Kennzahl zu berichten. Die Verwendung verschiedener Quellen zur Überprüfung konsistenter Datentrends und -verhaltensweisen ermöglicht es Unternehmen, sich auf die verwertbaren Erkenntnisse aus ihren Analysen zu verlassen. Diese Logik kann auch auf Beziehungen zwischen Daten angewendet werden. So sollte beispielsweise die Zahl der Beschäftigten in einer Abteilung nicht die Gesamtzahl der Beschäftigten in einem Unternehmen überschreiten.
  • Eignung für Zweck: Schließlich trägt die Zweckmäßigkeit dazu bei, sicherzustellen, dass der Datenbestand den geschäftlichen Anforderungen entspricht. Diese Dimension kann schwierig zu bewerten sein, insbesondere bei neuen, neu entstehenden Datensätzen.                                                                                                          

Mit Hilfe dieser Messwerte können Teams die Datenqualität in ihrem Unternehmen bewerten, um festzustellen, wie informativ und nützlich die Daten für einen bestimmten Zweck sind.

Warum ist Datenqualität wichtig?

In den letzten zehn Jahren haben die Entwicklungen in den Bereichen Hybrid Cloud, künstliche Intelligenz, Internet der Dinge (IoT) und Edge Computing  zu einem exponentiellen Wachstum von Big Data geführt. Infolgedessen ist die Praxis der Stammdatenverwaltung (MDM) komplexer geworden und erfordert mehr Datenverwalter und strenge Schutzmaßnahmen zur Gewährleistung einer guten Datenqualität.

Unternehmen verlassen sich auf das Datenqualitätsmanagement, um ihre Datenanalyseinitiativen, wie z. B. Business Intelligence Dashboards, zu unterstützen. Andernfalls kann dies je nach Branche (z. B. Gesundheitswesen) verheerende, auch ethische Folgen haben. Es gibt Lösungen für die Datenqualität, die Unternehmen dabei helfen, ihre Daten optimal zu nutzen, und sie haben wichtige Vorteile gebracht, z. B:

  • Bessere Geschäftsentscheidungen:Qualitativ hochwertige Daten ermöglichen es Unternehmen, wichtige Leistungsindikatoren (Key Performance Indicators, KPIs) zu ermitteln, um die Leistung verschiedener Programme zu messen, was es den Teams ermöglicht, diese effektiver zu verbessern oder auszubauen. Unternehmen, die der Datenqualität Priorität einräumen, haben zweifellos einen Vorteil gegenüber ihren Mitbewerbern.
  • Verbesserte Geschäftsprozesse:Gute Daten bedeuten auch, dass die Teams erkennen können, wo es in den betrieblichen Abläufen zu Störungen kommt. Dies gilt insbesondere für die Lieferkettenbranche, die auf Echtzeitdaten angewiesen ist, um den richtigen Bestand und dessen Standort nach dem Versand zu bestimmen.
  • Erhöhte Kundenzufriedenheit:Eine hohe Datenqualität bietet Unternehmen, insbesondere Marketing- und Vertriebsteams, einen unglaublichen Einblick in ihre Zielkunden. Sie sind in der Lage, verschiedene Daten über den Verkaufs- und Marketingtrichter hinweg zu integrieren, wodurch sie ihre Produkte effektiver verkaufen können. So kann die Kombination aus demografischen Daten und Webverhalten beispielsweise Aufschluss darüber geben, wie Unternehmen ihre Botschaften gestalten, ihr Marketingbudget investieren oder ihre Vertriebsteams für die Betreuung bestehender oder potenzieller Kunden einsetzen.
IBM Lösungen
IBM Cloud Pak® for Data

Ermöglichen Sie die schnellere Vorhersage von Ergebnissen mit einer Plattform, die auf einer Data-Fabric-Architektur basiert. Sammeln, organisieren und analysieren Sie Daten, ganz unabhängig davon, wo sie gespeichert sind.

IBM Cloud Pak® for Data
IBM Watson Knowledge Catalog

Aktivieren Sie geschäftsfähige Daten für KI und Analysen mit einem intelligenten Datenkatalog, der durch aktives Metadaten- und Richtlinienmanagement gestützt wird.

IBM Watson Knowledge Catalog
Ressourcen Datengovernance und Schutz personenbezogener Daten für Daten-Führungskräfte
Lesen Sie einen IBM-Leitfaden über die Bausteine von Datengovernance und Datenschutz
Einstieg in ein Datenqualitätsprogramm
Erfahren Sie, wie Sie Probleme mit der Datenqualität angehen können, damit Ihr Unternehmen seine Geschäftsergebnisse verbessern kann.
Machen Sie den nächsten Schritt

IBM Cloud Pak for Data nutzt Microservices und sein führendes Daten- und KI-Leistungsspektrum, um die intelligente Integration verteilter Datensysteme zu automatisieren und Unternehmen eine ganzheitliche Sicht der Unternehmensleistung zu bieten. Dies erleichtert die schnellere Zusammenstellung, Organisation und Einsicht in Unternehmensdaten und ermöglicht es Unternehmen, Entscheidungen im richtigen Maß zu treffen. Datenmanagement-Teams können zudem darauf vertrauen, dass ihre Daten sicher sind – mit konkurrenzfähigen IBM Sicherheitsframeworks zur Gewährleistung der Einhaltung regulatorischer Richtlinien und Reduzierung jeglicher Compliancerisiken. Finden Sie heraus, wie IBM Cloud Pak® for Data Ihnen helfen kann, die Datenqualität Ihres Unternehmens über mehrere Umgebungen hinweg zu verstehen und zu verwalten.

Weitere Informationen zu IBM Cloud Pak® for Data