Dimensions de la qualité des données

Les dimensions de qualité des données décrivent une caractéristique mesurable des données et aident à définir les exigences de qualité des données. Utilisez les dimensions de la qualité des données pour déterminer les résultats attendus de l'évaluation de la qualité des données, qu'il s'agisse d'une évaluation initiale ou d'une surveillance continue.

L'état dans lequel vous souhaitez que vos données soient généralement peut être défini comme adapté à l'utilisation, sans incident, correspond à la spécificationou répondant aux attentes et aux exigences. Lorsque vous mesurez la qualité des données, vous comparez l'état réel de vos données à cet état souhaité. Les normes, les attentes et les exigences qui sont importantes pour vos processus métier sont exprimées en tant que caractéristiques ou dimensions des données.

L'association Data Management (DAMA ) International a publié un document qui décrit six dimensions essentielles de la qualité des données : Exactitude, exhaustivité, cohérence, actualité, unicité, validité

En plus de ces dimensions fondamentales, IBM watsonx.data intelligence propose la dimension Homogénéité.

Le tableau suivant décrit les dimensions de la qualité des données et énumère les contrôles de la qualité des données dans l'enrichissement des métadonnées qui peuvent identifier les problèmes associés à une dimension spécifique. De plus, ces dimensions peuvent être évaluées en configurant et en exécutant des règles individuelles de qualité des données.

Dimensions de la qualité des données
Dimension Descriptif Types de contrôles de la qualité des données
exactitude Les valeurs de données sont aussi proches que possible des valeurs réelles. Néant.
Exhaustivité Toutes les valeurs de données requises sont présentes. Contrôle d'exhaustivité
Cohérence Les valeurs de données d'une colonne sont conformes à une règle. Vérification du style de capitalisation
Vérification de la représentation des valeurs manquantes
Vérification de l'intégrité référentielle
Vérification des valeurs suspectes
Homogénéité Les données d'un patrimoine de données sont uniformes et cohérentes dans le temps. Tous les points de données partagent des caractéristiques, des formats ou des structures similaires. Stabilité historique
Ponctualité Les données représentent la réalité à partir d'un point dans le temps requis. Néant.
Unicité Les valeurs distinctes n'apparaissent qu'une seule fois. Contrôle d'unicité
Validité Les données sont conformes au format, au type ou à la plage de sa définition. Contrôle de la classe de données
Contrôle du type de données
Contrôle du format
Contrôle de la longueur
Contrôle des valeurs possibles
Contrôle de la plage
Contrôle des expressions rationnelles

Vous pouvez créer vos propres dimensions de qualité des données en utilisant l'API IBM Knowledge Catalog Create a data quality dimension.

En savoir plus