Datenqualitätsdimensionen

Datenqualitätsdimensionen beschreiben ein messbares Merkmal von Daten und helfen bei der Definition von Datenqualitätsanforderungen. Verwenden Sie Datenqualitätsdimensionen, um die erwarteten Ergebnisse der Datenqualitätsbewertung zu ermitteln, unabhängig davon, ob es sich um eine Erstbewertung oder eine fortlaufende Überwachung handelt.

Der Status, in dem sich Ihre Daten normalerweise befinden sollen, kann als für die Verwendung geeignet, fehlerfrei, entspricht der Spezifikationoder erfüllt Erwartungen und Anforderungendefiniert werden. Wenn Sie die Datenqualität messen, vergleichen Sie den tatsächlichen Status Ihrer Daten mit diesem gewünschten Status. Die Standards, Erwartungen und Anforderungen, die für Ihre Geschäftsprozesse wichtig sind, werden als Merkmale oder Dimensionen der Daten ausgedrückt.

Die Data Management Association (DAMA ) International hat ein Papier veröffentlicht, das 6 Kerndimensionen der Datenqualität beschreibt: Genauigkeit, Vollständigkeit, Konsistenz, Aktualität, Einzigartigkeit und Validität

Zusätzlich zu diesen Kerndimensionen gibt es auf IBM watsonx.data intelligence die Dimension Homogenität.

Die folgende Tabelle beschreibt die Datenqualitätsdimensionen und listet die Datenqualitätsprüfungen in der Metadatenanreicherung auf, die Probleme im Zusammenhang mit einer bestimmten Dimension identifizieren können. Darüber hinaus können diese Dimensionen durch die Ausführung einzelner Datenqualitätsregeln bewertet werden.

Datenqualitätsdimensionen
Dimension Beschreibung Arten von Datenqualitätsprüfungen
Genauigkeit Datenwerte sind so nah wie möglich an realen Werten. Keine.
Vollständigkeit Alle erforderlichen Datenwerte sind vorhanden. Prüfung auf Vollständigkeit
Konsistenz Datenwerte in einer Spalte entsprechen einer Regel. Prüfung der Großschreibung
Prüfung der Darstellung fehlender Werte
Prüfung der referenziellen Integrität
Prüfung verdächtiger Werte
Homogenität Die Daten innerhalb eines Datenbestands sind einheitlich und im Laufe der Zeit konsistent. Alle Datenpunkte haben ähnliche Merkmale, Formate oder Strukturen. Langzeitstabilität
Pünktlichkeit Daten stellen die Realität ab einem erforderlichen Zeitpunkt dar. Keine.
Eindeutigkeit Unterschiedliche Werte werden nur einmal angezeigt. Prüfung auf Eindeutigkeit
Gültigkeit Die Daten entsprechen dem Format, Typ oder Bereich ihrer Definition. Prüfung der Datenklasse
Prüfung des Datentyps
Prüfung des Formats
Prüfung der Länge
Prüfung der möglichen Werte
Prüfung des Bereichs
Prüfung des Regex

Sie können Ihre eigenen Datenqualitätsdimensionen erstellen, indem Sie die IBM Knowledge Catalog API Create a data quality dimension verwenden.

Weitere Informationen