Die Datenqualität misst, wie gut ein Dataset die Kriterien für Genauigkeit, Vollständigkeit, Gültigkeit, Konsistenz, Einzigartigkeit, Aktualität und Zweckmäßigkeit erfüllt, und ist für alle Datengovernance-Initiativen in einem Unternehmen von entscheidender Bedeutung. Datenqualitätsstandards stellen sicher, dass Unternehmen datengesteuerte Entscheidungen treffen, um ihre Geschäftsziele zu erreichen. Wenn Datenprobleme, wie kopierte Daten, fehlende Werte, Ausreißer, nicht ordnungsgemäß behandelt werden, nimmt das Risiko negativer Geschäftsergebnisse für die Unternehmen zu. Einem Bericht von Gartner zufolge kostet schlechte Datenqualität Unternehmen durchschnittlich 12,9 Millionen Dollar pro Jahr1. Infolgedessen sind Datenqualitätstools entstanden, um die Beeinträchtigungen einer schlechten Datenqualität abzumildern.
Wenn die Datenqualität dem Standard für den vorgesehenen Gebrauch entspricht, können die Datenkonsumenten den Daten vertrauen und sie zur Verbesserung der Entscheidungsfindung nutzen, was zur Entwicklung neuer Geschäftsstrategien oder zur Optimierung bestehender Strategien führt. Wenn jedoch ein Standard nicht eingehalten wird, bieten Datenqualitätstools einen Mehrwert, indem sie Unternehmen helfen, die zugrunde liegenden Datenprobleme zu diagnostizieren. Eine Ursachenanalyse ermöglicht es den Teams, Probleme mit der Datenqualität schnell und effektiv zu beheben.
Datenqualität ist nicht nur eine Priorität für das Tagesgeschäft. Da Unternehmen künstliche Intelligenz (KI) und Automatisierungstechnologien in ihre Arbeitsabläufe integrieren, sind qualitativ hochwertige Daten entscheidend für die effektive Nutzung dieser Tools. Ein altes Sprichwort besagt: „Garbage in, garbage out“ (Müll rein, Müll raus), und das gilt auch für Algorithmen des maschinellen Lernens. Wenn der Algorithmus lernt, auf der Grundlage schlechter Daten Vorhersagen zu treffen oder zu klassifizieren, ist zu erwarten, dass er ungenaue Ergebnisse liefert.
Qualität , Datenintegrität und Profiling stehen alle in Wechselbeziehung zueinander Bei der Datenqualität handelt es sich um eine breitere Kategorie von Kriterien, anhand derer Unternehmen ihre Daten auf Richtigkeit, Vollständigkeit, Gültigkeit, Konsistenz, Eindeutigkeit, Aktualität und Zweckmäßigkeit bewerten. Datenintegrität konzentriert sich nur auf einen Teil dieser Attribute, nämlich Genauigkeit, Kohärenz und Vollständigkeit. Sie betrachtet dies auch unter dem Gesichtspunkt der Datensicherheit, indem sie Sicherheitsvorkehrungen zum Schutz vor Datenverfälschung durch böswillige Akteure trifft.
Daten-Profiling hingegen konzentriert sich auf den Prozess der Überprüfung und Bereinigung von Daten, um die Datenqualitätsstandards innerhalb eines Unternehmens aufrechtzuerhalten. Dies kann auch die Technologie umfassen, die diese Prozesse unterstützt.
Die Datenqualität wird anhand einer Reihe von Dimensionen bewertet, die sich je nach Informationsquelle unterscheiden können. Diese Dimensionen werden zur Kategorisierung der Messwerte von Datenqualität verwendet:
Mit Hilfe dieser Messwerte können Teams die Datenqualität in ihrem Unternehmen bewerten, um festzustellen, wie informativ und nützlich die Daten für einen bestimmten Zweck sind.
In den letzten zehn Jahren haben die Entwicklungen in den Bereichen Hybrid Cloud, künstliche Intelligenz, Internet der Dinge (IoT) und Edge Computing zu einem exponentiellen Wachstum von Big Data geführt. Infolgedessen ist die Praxis der Stammdatenverwaltung (MDM) komplexer geworden und erfordert mehr Datenverwalter und strenge Schutzmaßnahmen zur Gewährleistung einer guten Datenqualität.
Unternehmen verlassen sich auf das Datenqualitätsmanagement, um ihre Datenanalyseinitiativen, wie z. B. Business Intelligence Dashboards, zu unterstützen. Andernfalls kann dies je nach Branche (z. B. Gesundheitswesen) verheerende, auch ethische Folgen haben. Es gibt Lösungen für die Datenqualität, die Unternehmen dabei helfen, ihre Daten optimal zu nutzen, und sie haben wichtige Vorteile gebracht, z. B:
Ermöglichen Sie die schnellere Vorhersage von Ergebnissen mit einer Plattform, die auf einer Data-Fabric-Architektur basiert. Sammeln, organisieren und analysieren Sie Daten, ganz unabhängig davon, wo sie gespeichert sind.
Aktivieren Sie geschäftsfähige Daten für KI und Analysen mit einem intelligenten Datenkatalog, der durch aktives Metadaten- und Richtlinienmanagement gestützt wird.
Lesen Sie einen IBM-Leitfaden über die Bausteine von Datengovernance und Datenschutz
Erfahren Sie, wie Sie Probleme mit der Datenqualität angehen können, damit Ihr Unternehmen seine Geschäftsergebnisse verbessern kann.