Alors que la production mondiale de données À l’heure où la production mondiale de données continue de croître à un rythme vertigineux, une gestion efficace de la qualité des données permet aux entreprises d’éviter les données de mauvaise qualité, source d’erreurs coûteuses et d’inefficacités dans les processus métier. Avec des données fiables et de confiance à portée de main, les entreprises peuvent dégager des informations à forte valeur ajoutée, prendre de meilleures décisions et intégrer l’intelligence artificielle (IA) dans leurs opérations.
La gestion de la qualité des données comprend des pratiques telles que le profilage des données, le nettoyage des données, la validation des données, la surveillance de la qualité des données et la gestion des métadonnées. Une gestion réussie de la qualité des données aboutit à des jeux de données optimisés selon des dimensions clés de qualité : exactitude, complétude, cohérence, actualité, unicité et validité.
Des solutions logicielles permettent aux entreprises et aux professionnels des données de traiter les problèmes de qualité, et de créer des pipelines de données de haute qualité. Ces outils proposent des fonctionnalités telles que l’analyse de la qualité des données, la détection automatique des anomalies, les alertes d’incident en temps réel, et bien plus encore.
Pour comprendre l’importance de la gestion de la qualité des données, il suffit d’envisager ce qui peut se passer en son absence : à mesure que les entreprises misent sur des fonctions pilotées par les données, une mauvaise qualité des données peut entraîner des erreurs, des retards, des pertes financières, voire des atteintes à la réputation – avec des conséquences parfois graves. Ces risques sont démultipliés à l’ère du big data, alors que les entreprises doivent gérer des jeux de données massifs et complexes.
Voici quelques scénarios typiques liés à des « mauvaises données » :
À l’inverse, des données de haute qualité renforcent les initiatives de business intelligence, en favorisant l’efficacité opérationnelle, l’optimisation des workflows, la conformité réglementaire, la satisfaction client et la croissance de l’entreprise.
Avec l’adoption généralisée de l’intelligence artificielle, les avantages d’une bonne qualité des données sont encore plus marqués. Les algorithmes ont besoin de données fiables pour produire des modèles performants : une bonne qualité des données permet des résultats plus précis et plus utiles.
D’ailleurs, selon une étude menée par l’IBM Institute for Business Value, les entreprises disposant de grands volumes de données fiables – reconnues comme telles par les parties prenantes internes et externes – ont obtenu un retour sur investissement près de deux fois supérieur sur leurs projets d’IA.
Une gestion efficace de la qualité des données garantit que les données d’une entreprise répondent à six dimensions clés :
Garantir l’exactitude signifie que les données représentent correctement des événements et des valeurs du monde réel. Cela implique d’identifier et de corriger les erreurs ou les distorsions présentes dans un jeu de données.
Une donnée est complète lorsqu’un jeu de données contient tous les enregistrements nécessaires et ne présente aucune lacune ni valeur manquante.
Des données cohérentes sont harmonisées et standardisées à l’échelle de l’entreprise, ce qui garantit la compatibilité entre les enregistrements issus de différents jeux de données.
L’actualité (ou fraîcheur) des données mesure dans quelle mesure les valeurs sont à jour, afin d’éviter que des décisions soient prises sur la base d’informations obsolètes.
L’unicité fait référence à l’absence de données redondantes ou d’enregistrements en double, qui peuvent fausser les analyses.
La validité indique si les données respectent les règles métier, par exemple en restant dans les plages de valeurs autorisées et en suivant les formats définis.
Bien que ces six dimensions soient les plus couramment utilisées par les professionnels de la donnée, d’autres critères de qualité peuvent également entrer en jeu : accessibilité, pertinence, clarté de représentation, volume adapté, etc.1
Les pratiques courantes et complémentaires en matière de gestion de la qualité des données, utilisées par les intendants des données et autres professionnels des données, incluent notamment :
Avant d’améliorer la qualité des données, il est essentiel d’identifier les domaines à améliorer. Le profilage des données consiste à analyser la structure et le contenu des données existantes afin d’évaluer leur qualité et de définir une base de référence permettant de mesurer les actions correctives.
L’analyse menée dans le cadre du profilage peut fournir des informations sur les types de données, révéler des anomalies, identifier des valeurs invalides ou incomplètes, et évaluer les relations entre différents jeux de données.
Le nettoyage des données, ou data cleaning, consiste à corriger les erreurs et incohérences présentes dans les jeux de données brutes. Les méthodes utilisées pour nettoyer les données incluent la standardisation (uniformisation des formats et structures), l’ajustement ou la suppression des données aberrantes, la déduplication des données, ainsi que le traitement des valeurs manquantes.
Parfois considérée comme faisant partie des approches de nettoyage, la validation des données consiste à vérifier qu’elles sont correctes, précises et qu’elles respectent des règles de qualité définies (plages autorisées, contraintes d’intégrité référentielle, etc.), afin d’être prêtes à l’usage.
La qualité des données doit être surveillée en continu. Des modifications de schéma, des données obsolètes ou des enregistrements dupliqués peuvent, au fil du temps, compromettre l’intégrité des données. Une surveillance continue permet d’identifier les actifs de données qui ne respectent plus les normes de qualité ou les indicateurs de performance (KPI) définis par l’entreprise.
La gestion des métadonnées prend en charge de nombreuses fonctions, comme la sécurité ou la gouvernance, mais elle fait également partie intégrante de la gestion de la qualité des données.Des techniques comme l’enrichissement des métadonnées permettent d’inclure des informations sur les règles de données, les définitions de données et la traçabilité. Ces éléments facilitent la gestion globale des données, y compris les initiatives de qualité.
La gestion de la qualité des données, la gestion des données, la gestion des données de référence (master data management) et la gouvernance des données sont des processus distincts mais interdépendants, qui contribuent tous à maximiser la valeur des actifs de données d’une entreprise.
La gestion des données désigne l’ensemble des processus de supervision et de traitement des données tout au long de leur cycle de vie. Les stratégies de gestion des données aident les entreprises à gérer la diversité des sources de données et à anticiper les besoins en matière de reprise après sinistre, entre autres problématiques. La gestion de la qualité des données (DQM) peut être considérée comme une discipline à part entière, ou comme un sous-ensemble de la gestion des données.
La gestion des données de référence (master data management) est une approche globale qui vise à établir une cohérence dans le traitement des données critiques (données de référence) au sein de l’entreprise.
Grâce à la gestion des données, les données critiques sont partagées et utilisées par divers systèmes et applications au sein de l’entreprise afin de réduire la fragmentation des données, les données cloisonnées, la duplication et les inexactitudes. Elle repose sur un ensemble de processus et d’outils technologiques, dont certains sont également intégrés aux démarches de gestion de la qualité des données, comme le nettoyage des données.
La gouvernance des données définit et applique les politiques, normes et procédures liées à la collecte, au stockage des données, à leur propriété, à leur traitement et à leur utilisation. À l’instar de la gestion de la qualité des données, la gouvernance des données peut être considérée comme une discipline de la gestion des données. Par ailleurs, les procédures mises en place dans le cadre de la gouvernance, telles que les politiques de traitement cohérent des données), peuvent venir renforcer les initiatives de gestion de la qualité des données.
Les outils et solutions logicielles de DQM permettent de réduire considérablement les efforts manuels liés à la gestion de la qualité. Si la généralisation de l’IA fait partie des facteurs qui renforcent le besoin de DQM, elle permet aussi de développer des solutions plus puissantes. Par exemple, le machine learning peut être utilisé pour détecter automatiquement des anomalies dans les données.
Parmi les autres fonctionnalités proposées par les outils de gestion de la qualité des données :
1 « Overview of Data Quality: Examining the Dimensions, Antecedents, and Impacts of Data Quality. » Journal of the Knowledge Economy. 10 février 2023.