Qu’est-ce que la gestion de la qualité des données ?

Une femme est assise à un comptoir, entourée de grands écrans d’ordinateur affichant des graphiques.

Auteurs

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Qu’est-ce que la gestion de la qualité des données ?

La gestion de la qualité des données, ou DQM (Data Quality Management), regroupe un ensemble de pratiques visant à améliorer et maintenir la qualité des données d’une entreprise.

 

Alors que la production mondiale de données À l’heure où la production mondiale de données continue de croître à un rythme vertigineux, une gestion efficace de la qualité des données permet aux entreprises d’éviter les données de mauvaise qualité, source d’erreurs coûteuses et d’inefficacités dans les processus métier. Avec des données fiables et de confiance à portée de main, les entreprises peuvent dégager des informations à forte valeur ajoutée, prendre de meilleures décisions et intégrer l’intelligence artificielle (IA) dans leurs opérations.

La gestion de la qualité des données comprend des pratiques telles que le profilage des données, le nettoyage des données, la validation des données, la surveillance de la qualité des données et la gestion des métadonnées. Une gestion réussie de la qualité des données aboutit à des jeux de données optimisés selon des dimensions clés de qualité : exactitude, complétude, cohérence, actualité, unicité et validité.

Des solutions logicielles permettent aux entreprises et aux professionnels des données de traiter les problèmes de qualité, et de créer des pipelines de données de haute qualité. Ces outils proposent des fonctionnalités telles que l’analyse de la qualité des données, la détection automatique des anomalies, les alertes d’incident en temps réel, et bien plus encore.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Pourquoi la gestion de la qualité des données est-elle importante ?

Pour comprendre l’importance de la gestion de la qualité des données, il suffit d’envisager ce qui peut se passer en son absence : à mesure que les entreprises misent sur des fonctions pilotées par les données, une mauvaise qualité des données peut entraîner des erreurs, des retards, des pertes financières, voire des atteintes à la réputation – avec des conséquences parfois graves. Ces risques sont démultipliés à l’ère du big data, alors que les entreprises doivent gérer des jeux de données massifs et complexes.

Voici quelques scénarios typiques liés à des « mauvaises données » :

  • La table clients d’un distributeur contient de nombreuses inexactitudes, ce qui entraîne des campagnes marketing mal ciblées et inefficaces.

  • Une étude clinique utilise des formats de données incohérents, rendant les comparaisons difficiles et freinant la recherche sur l’évolution des maladies et les soins de santé.

  • Une entreprise opérant dans un secteur fortement réglementé est confrontée à des problèmes de qualité des données, ce qui la met en infraction avec des réglementations comme le RGPD ou la loi Sarbanes-Oxley (SOX).

À l’inverse, des données de haute qualité renforcent les initiatives de business intelligence, en favorisant l’efficacité opérationnelle, l’optimisation des workflows, la conformité réglementaire, la satisfaction client et la croissance de l’entreprise.

Avec l’adoption généralisée de l’intelligence artificielle, les avantages d’une bonne qualité des données sont encore plus marqués. Les algorithmes ont besoin de données fiables pour produire des modèles performants : une bonne qualité des données permet des résultats plus précis et plus utiles.

D’ailleurs, selon une étude menée par l’IBM Institute for Business Value, les entreprises disposant de grands volumes de données fiables – reconnues comme telles par les parties prenantes internes et externes – ont obtenu un retour sur investissement près de deux fois supérieur sur leurs projets d’IA.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Quelles sont les six dimensions de la qualité des données ?

Une gestion efficace de la qualité des données garantit que les données d’une entreprise répondent à six dimensions clés :

  • Exactitude
  • Complétude
  • Cohérence
  • Rapidité
  • Unicité
  • Validité
Précision des données

Garantir l’exactitude signifie que les données représentent correctement des événements et des valeurs du monde réel. Cela implique d’identifier et de corriger les erreurs ou les distorsions présentes dans un jeu de données.

Complétude des données

Une donnée est complète lorsqu’un jeu de données contient tous les enregistrements nécessaires et ne présente aucune lacune ni valeur manquante.

Cohérence des données

Des données cohérentes sont harmonisées et standardisées à l’échelle de l’entreprise, ce qui garantit la compatibilité entre les enregistrements issus de différents jeux de données.

Actualité des données

L’actualité (ou fraîcheur) des données mesure dans quelle mesure les valeurs sont à jour, afin d’éviter que des décisions soient prises sur la base d’informations obsolètes.

Unicité des données

L’unicité fait référence à l’absence de données redondantes ou d’enregistrements en double, qui peuvent fausser les analyses.

Validité des données

La validité indique si les données respectent les règles métier, par exemple en restant dans les plages de valeurs autorisées et en suivant les formats définis.

Bien que ces six dimensions soient les plus couramment utilisées par les professionnels de la donnée, d’autres critères de qualité peuvent également entrer en jeu : accessibilité, pertinence, clarté de représentation, volume adapté, etc.1

Quelles sont les pratiques associées à la gestion de la qualité des données ?

Les pratiques courantes et complémentaires en matière de gestion de la qualité des données, utilisées par les intendants des données et autres professionnels des données, incluent notamment :

  • Profilage des données
  • Nettoyage des données
  • Validation de données
  • Contrôle de la qualité des données
  • Gestion des métadonnées

Profilage des données

Avant d’améliorer la qualité des données, il est essentiel d’identifier les domaines à améliorer. Le profilage des données consiste à analyser la structure et le contenu des données existantes afin d’évaluer leur qualité et de définir une base de référence permettant de mesurer les actions correctives.

L’analyse menée dans le cadre du profilage peut fournir des informations sur les types de données, révéler des anomalies, identifier des valeurs invalides ou incomplètes, et évaluer les relations entre différents jeux de données.

Nettoyage des données

Le nettoyage des données, ou data cleaning, consiste à corriger les erreurs et incohérences présentes dans les jeux de données brutes. Les méthodes utilisées pour nettoyer les données incluent la standardisation (uniformisation des formats et structures), l’ajustement ou la suppression des données aberrantes, la déduplication des données, ainsi que le traitement des valeurs manquantes.

Validation des données.

Parfois considérée comme faisant partie des approches de nettoyage, la validation des données consiste à vérifier qu’elles sont correctes, précises et qu’elles respectent des règles de qualité définies (plages autorisées, contraintes d’intégrité référentielle, etc.), afin d’être prêtes à l’usage.

Contrôle de la qualité des données

La qualité des données doit être surveillée en continu. Des modifications de schéma, des données obsolètes ou des enregistrements dupliqués peuvent, au fil du temps, compromettre l’intégrité des données. Une surveillance continue permet d’identifier les actifs de données qui ne respectent plus les normes de qualité ou les indicateurs de performance (KPI) définis par l’entreprise.

Gestion des métadonnées

La gestion des métadonnées prend en charge de nombreuses fonctions, comme la sécurité ou la gouvernance, mais elle fait également partie intégrante de la gestion de la qualité des données.Des techniques comme l’enrichissement des métadonnées permettent d’inclure des informations sur les règles de données, les définitions de données et la traçabilité. Ces éléments facilitent la gestion globale des données, y compris les initiatives de qualité.

Gestion de la qualité des données et autres processus de gestion des données

La gestion de la qualité des données, la gestion des données, la gestion des données de référence (master data management) et la gouvernance des données sont des processus distincts mais interdépendants, qui contribuent tous à maximiser la valeur des actifs de données d’une entreprise.

Gestion des données

La gestion des données désigne l’ensemble des processus de supervision et de traitement des données tout au long de leur cycle de vie. Les stratégies de gestion des données aident les entreprises à gérer la diversité des sources de données et à anticiper les besoins en matière de reprise après sinistre, entre autres problématiques. La gestion de la qualité des données (DQM) peut être considérée comme une discipline à part entière, ou comme un sous-ensemble de la gestion des données.

Gestion des données maîtresses

La gestion des données de référence (master data management) est une approche globale qui vise à établir une cohérence dans le traitement des données critiques (données de référence) au sein de l’entreprise.

Grâce à la gestion des données, les données critiques sont partagées et utilisées par divers systèmes et applications au sein de l’entreprise afin de réduire la fragmentation des données, les données cloisonnées, la duplication et les inexactitudes. Elle repose sur un ensemble de processus et d’outils technologiques, dont certains sont également intégrés aux démarches de gestion de la qualité des données, comme le nettoyage des données.

Gouvernance des données

La gouvernance des données définit et applique les politiques, normes et procédures liées à la collecte, au stockage des données, à leur propriété, à leur traitement et à leur utilisation. À l’instar de la gestion de la qualité des données, la gouvernance des données peut être considérée comme une discipline de la gestion des données. Par ailleurs, les procédures mises en place dans le cadre de la gouvernance, telles que les politiques de traitement cohérent des données), peuvent venir renforcer les initiatives de gestion de la qualité des données.

Outils de gestion de la qualité des données

Les outils et solutions logicielles de DQM permettent de réduire considérablement les efforts manuels liés à la gestion de la qualité. Si la généralisation de l’IA fait partie des facteurs qui renforcent le besoin de DQM, elle permet aussi de développer des solutions plus puissantes. Par exemple, le machine learning peut être utilisé pour détecter automatiquement des anomalies dans les données.

Parmi les autres fonctionnalités proposées par les outils de gestion de la qualité des données :

  • Contrôles de qualité prédéfinis et règles personnalisables

  • Catalogues de données avec analyse intégrée de la qualité

  • Tableaux de bord complets pour la gestion des incidents liés aux données

  • Alertes en temps réel en cas d’anomalies ou de problèmes

  • Analyse des causes profondes pour accélérer la résolution des incidents

  • Suivi de la traçabilité des métadonnées pour une meilleure transparence sur les transformations appliquées aux données
Notes de bas de page

« Overview of Data Quality: Examining the Dimensions, Antecedents, and Impacts of Data Quality. » Journal of the Knowledge Economy. 10 février 2023.