Datenqualitätsdimensionen
Datenqualitätsdimensionen beschreiben ein messbares Merkmal von Daten und helfen bei der Definition von Datenqualitätsanforderungen. Verwenden Sie Datenqualitätsdimensionen, um die erwarteten Ergebnisse der Datenqualitätsbewertung zu ermitteln, unabhängig davon, ob es sich um eine Erstbewertung oder eine fortlaufende Überwachung handelt.
Der Status, in dem sich Ihre Daten normalerweise befinden sollen, kann als für die Verwendung geeignet, fehlerfrei, entspricht der Spezifikationoder erfüllt Erwartungen und Anforderungendefiniert werden. Wenn Sie die Datenqualität messen, vergleichen Sie den tatsächlichen Status Ihrer Daten mit diesem gewünschten Status. Die Standards, Erwartungen und Anforderungen, die für Ihre Geschäftsprozesse wichtig sind, werden als Merkmale oder Dimensionen der Daten ausgedrückt.
Die Data Management Association (DAMA ) International hat ein Papier veröffentlicht, das 6 Kerndimensionen der Datenqualität beschreibt: Genauigkeit, Vollständigkeit, Konsistenz, Aktualität, Einzigartigkeit und Validität
Zusätzlich zu diesen Kerndimensionen bietet „ IBM “ ( watsonx.data intelligence ) die Dimensionen Konformität, Abdeckung und Homogenität.
Die folgende Tabelle beschreibt die Datenqualitätsdimensionen und listet automatisierte Datenqualitätsprüfungen auf, mit denen Probleme im Zusammenhang mit einer bestimmten Dimension identifiziert werden können. Diese Prüfungen können Datenqualitätsprüfungen bei der Metadatenanreicherung oder Datenqualitätsprüfungen sein, die Teil eines Datenvertrags sind. Datenverträge müssen dem Open Data Contract Standard (ODCS) entsprechen. Darüber hinaus können diese Dimensionen durch die Einrichtung und Ausführung individueller Datenqualitätsregeln bewertet werden.
| Dimension | Beschreibung | Arten von Datenqualitätsprüfungen |
|---|---|---|
| Genauigkeit | Datenwerte sind so nah wie möglich an realen Werten. | Datenqualitätsprüfungen als Teil der Datenvertragstests |
| Vollständigkeit | Alle erforderlichen Datenwerte sind vorhanden. | VollständigkeitsprüfungDatenqualitätsprüfungen als Teil der Datenvertragstests |
| Konformität | Die Daten entsprechen den definierten Standards, Formaten und zulässigen Werten. | Datenqualitätsprüfungen als Teil der Datenvertragstests |
| Konsistenz | Datenwerte in einer Spalte entsprechen einer Regel. | Über prüfung des GroßschreibungsstilsÜberprüfung der Darstellung fehlender WerteÜberprüfung der referenziellen IntegritätÜberprüfung verdächtiger WerteDatenqualitätsprüfungen als Teil der Datenvertragstests |
| Abdeckung | Daten stellen den erwarteten Datensatz dar, der in der Regel anhand der Anzahl der Datensätze oder der Vollständigkeit der Daten gemessen wird. | Datenqualitätsprüfungen als Teil der Datenvertragstests |
| Homogenität | Die Daten innerhalb eines Datenbestands sind einheitlich und im Laufe der Zeit konsistent. Alle Datenpunkte haben ähnliche Merkmale, Formate oder Strukturen. | Langzeitstabilität |
| Pünktlichkeit | Daten stellen die Realität ab einem erforderlichen Zeitpunkt dar. | Datenqualitätsprüfungen als Teil der Datenvertragstests |
| Eindeutigkeit | Unterschiedliche Werte werden nur einmal angezeigt. | EinzigartigkeitsprüfungDatenqualitätsprüfungen als Teil der Datenvertragsprüfung |
| Gültigkeit | Die Daten entsprechen dem Format, Typ oder Bereich ihrer Definition. | Prüfung der Datenklasse Prüfung des Datentyps Prüfung des Formats Prüfung der Länge Prüfung der möglichen Werte Prüfung des Bereichs Prüfung des Regex |
Sie können Ihre eigenen Datenqualitätsdimensionen erstellen, indem Sie die IBM Knowledge Catalog API Create a data quality dimension verwenden.