Actifs de qualité de données

Concevoir des ressources de qualité des données pour analyser et surveiller la qualité des données dans un projet.

Vous pouvez disposer des ressources suivantes pour la qualité des données dans votre projet :

Avant de commencer à créer des définitions et des règles relatives à la qualité des données, réfléchissez aux points suivants :

  • Que souhaitez-vous analyser et surveiller?
  • Quels éléments devez-vous évaluer?
  • Quel est l'objectif de l'analyse, par exemple vérifier l'exhaustivité, la validité, etc.?
Autorisations requises
Pour créer, modifier ou supprimer des ressources de qualité des données, vous devez disposer de l'autorisation utilisateur Gérer les ressources de qualité des données et du rôle Administrateur ou Éditeur dans le projet.

Définitions de qualité des données

Une définition de la qualité des données représente une forme générique d'une règle de qualité des données. Il décrit l'évaluation de la règle ou la condition à l'aide de variables logiques qui ne sont liées à aucune donnée réelle. Il peut donc être utilisé dans un nombre illimité de règles de qualité des données. Si vous modifiez la définition de la qualité des données, vous modifiez également la logique de validation pour toutes les règles dérivées de cette définition.

Vous créez et gérez les définitions de qualité des données dans les projets. Pour qu'une définition de qualité des données puisse être réutilisée dans d'autres projets, vous pouvez la publier dans un catalogue.

Propriétés pour les définitions de qualité des données

Outre les propriétés communes aux actifs, les définitions de qualité des données possèdent les propriétés suivantes dans les projets. Les utilisateurs disposant des autorisations appropriées peuvent modifier toutes les propriétés.

Pour plus d'informations sur les propriétés communes, consultez la section Propriétés communes des actifs.

Expression de règle
La logique de règle définie. Les modifications apportées à l'expression de règle affectent toutes les règles dérivées de cette définition de qualité des données.
 
Dimension de qualité des données
Facultatif. La principale mesure de la qualité des données pour la logique des règles. La dimension sélectionnée peut être utilisée comme catégorie de rapport, pour filtrer ou pour visualiser les données sélectionnées.
 
Artefacts de gouvernance
Facultatif. Les conditions commerciales et les règles de gouvernance attribuées à l'actif par les utilisateurs.
 
Propriétés personnalisées

Facultatif. Toutes les propriétés personnalisées définies pour ce type d'actif.

Règles de qualité des données

Une règle de qualité des données relie ou lie des variables logiques à des données réelles à des fins d'évaluation. Une règle est appliquée aux données physiques afin d'évaluer la qualité de vos données en évaluant et en validant des conditions spécifiques. Chaque exécution de règle fournit des statistiques et des informations sur les exceptions potentielles telles que définies pour la table de sortie de la règle.

Vous créez, gérez et exécutez des règles de qualité des données dans des projets. Pour qu'une règle de qualité des données puisse être réutilisée dans d'autres projets, vous pouvez la publier dans un catalogue.

Vous ne pouvez pas publier les règles de qualité des données suivantes dans les catalogues :

  • Règles paramétrées de qualité des données
  • Règles de qualité des données avec sous-flux

De plus, lorsque vous copiez plusieurs fois une règle ou une définition de qualité des données d'un catalogue vers le même projet, plusieurs règles ou définitions de qualité des données portant le même nom peuvent être créées, en fonction de la configuration de votre projet pour la gestion des doublons.

Vous pouvez créer des règles à partir d'une ou plusieurs définitions de qualité des données ou vous pouvez créer des règles de qualité des données à l'aide d'instructions SQL. Les règles élaborées à partir des définitions de qualité des données permettent de déterminer quelles colonnes sont conformes aux conditions de la règle et lesquelles ne le sont pas. Les règles basées sur SQL sont mieux adaptées pour vérifier les enregistrements non conformes.

Par exemple, vous souhaitez valider des identifiants fiscaux. Vos concepts pourraient donc être TaxID existe et Valider TaxID.

Vous disposez désormais des options suivantes :

  • Créer des règles à partir des définitions de qualité des données. Pour l'un ou l'autre concept, vous pouvez créer une définition de qualité des données avec une logique d'évaluation pour la variable logique tax_id. La première condition est que l'identifiant fiscal (ou TaxID ) doit exister, et la deuxième condition est que l'identifiant fiscal doit respecter un format défini.

    Définition de la qualité TaxID des données existe : Définition de tax_id exists
    la qualité des données Valider le numéro d'identification fiscale : tax_id matches_format 'AA99-A999-9999'

    Ensuite, sélectionnez l'une des options suivantes :

    • Pour chaque colonne contenant un identifiant fiscal à valider, définissez deux règles de qualité des données. La première règle lie la variable tax_id logique de la définition TaxID existe à la colonne. La deuxième règle lie la variable tax_id logique de la définition Validate TaxID à la colonne.
    • Pour chaque colonne contenant un identifiant fiscal à valider, définissez une règle de qualité des données et utilisez les deux définitions de qualité des données dans cette règle. Liez la variable tax_id logique dans l'une ou l'autre définition TaxID existe et Valider TaxID à la colonne.
    • Définissez une règle de qualité des données et utilisez les deux définitions de qualité des données dans cette règle. Liez la variable tax_id logique dans l'une ou l'autre définition TaxID existe et Valider TaxID à un ensemble de paramètres de type Paramètre de colonne. Ajoutez toutes les colonnes contenant un identifiant fiscal à valider à cet ensemble de paramètres.
  • Créer une règle basée sur SQL : select tax_id from taxschema.taxtable where tax_id is null or not regexp_like(tax_id, '^[a-zA-Z]{2}[0-9]{2}-[a-zA-Z][0-9]{3}-[0-9]{4}$')

Propriétés des règles de qualité des données

Outre les propriétés communes aux actifs, les règles de qualité des données présentent les propriétés suivantes dans les projets. Les utilisateurs disposant des autorisations appropriées peuvent modifier toutes les propriétés.

Pour plus d'informations sur les propriétés communes, consultez la section Propriétés communes des actifs.

Expressions liées
La liste des expressions de règles. Vous pouvez afficher des informations sur une cible de liaison en survolant la balise dans l'expression liée.
Type de règle : Règle simple
 
Expressions de règle
La liste des expressions de règles.
Type de règle : Règle avec liaisons externes
 
connexion SQL
La connexion à la source de données où la règle sera appliquée.
Type de règle : règle basée sur SQL
 
Instructions SQL
La requête SQL qui compose la règle.
Type de règle : règle basée sur SQL
 
Dimension de qualité des données
Facultatif. La principale mesure de la qualité des données à laquelle contribue la règle de qualité des données.
Type de règle : règle simple, règle avec liaisons externes
 
Flux DataStage associé
Le DataStage flux qui fournit les liaisons pour la règle.
Type de règle : Règle avec liaisons externes
 
Définitions de qualité des données
Les définitions de qualité des données qui fournissent les expressions de règle.
Type de règle : règle simple, règle avec liaisons externes
 
Artefacts de gouvernance
Facultatif. Les conditions commerciales et les règles de gouvernance attribuées à l'actif par les utilisateurs.
Type de règle : règle simple, règle avec liaisons externes, règle basée sur SQL
 
Propriétés personnalisées

Facultatif. Toutes les propriétés personnalisées définies pour ce type d'actif.
Type de règle : règle simple, règle avec liaisons externes, règle basée sur SQL
 
Relations
Les relations apparaissent dans la section « Objets associés » et peuvent concerner soit la règle de qualité des données et des éléments ou des colonnes du même projet, soit la règle et un artefact.
Les relations suivantes sont automatiquement créées :
  • Pour tous les types de règles, une relation « Est implémenté par » avec le flux d' DataStage s associé
  • Pour des règles simples :
    • Utilisé par la relation avec le flux d' DataStage s associé.
    • A Valide la qualité des données de la relation avec chaque colonne liée.
    • A Utilise une relation de liaison avec chaque élément parent d'une colonne liée. Ne modifiez pas ces relations.
  • Pour les règles avec des liaisons gérées en externe, relations « Est implémenté par » et « Est utilisé par » avec le sous-flux associé « DataStage »
  • Pour les règles simples et les règles avec des liaisons gérées en externe, une relation Implements pour chacune des définitions de qualité des données référencées
Ajoutez les objets associés selon les besoins.
La page Qualité des données affiche des informations agrégées pour chaque colonne répertoriée ici avec une relation qui valide la qualité des données. Pour les règles avec des liaisons externes, les scores de qualité sont indiqués pour les colonnes ayant cette relation uniquement si aucune colonne pour l'indication des scores de qualité n'est configurée dans l'étape de sous-flux de la règle.
 
Sortie sélectionnée
Facultatif. Si configurées, les colonnes du tableau de sortie des règles.
Type de règle : règle simple, règle avec liaisons externes, règle basée sur SQL

Transfert des ressources relatives à la qualité des données entre les projets

Vous pouvez exporter les ressources de qualité des données d'un projet et les importer dans un autre, comme décrit dans la section Exportation des ressources d'un projet. Outre les définitions et les règles relatives à la qualité des données, vous pouvez sélectionner les éléments suivants associés aux règles de qualité des données à inclure dans l'exportation du projet :

  • Connexions

    Important : si une règle de qualité des données utilise une connexion avec des informations d'identification personnelles, déverrouillez cette connexion après l'importation avant d'exécuter la règle.
  • Données utilisées dans les liaisons

  • DataStage flux et sous-flux

  • Travaux

  • Actifs de données créés pour les tables de sortie des règles

Les éléments suivants ne sont pas exportés :

  • Historique d'exécution des règles
  • Tout artefact de gouvernance associé à un actif de qualité des données
  • Paramètres de sortie au niveau du projet
  • Informations sur la qualité des données générées par des règles

Si vous avez défini des propriétés personnalisées dans les définitions et les règles de qualité des données que vous exportez, assurez-vous que ces mêmes propriétés personnalisées, avec leurs identifiants uniques exacts, sont bien définies dans le système cible avant d'importer le projet.

En savoir plus