Favoriser un environnement de données dynamique peut aider les entreprises à accélérer leur croissance, selon une nouvelle étude de l’IBM Institute for Business Value. Mais comment savoir si les données sont réellement dynamiques et prêtes à soutenir cette croissance ?
La réponse passe par les indicateurs de qualité des données.
Les indicateurs de qualité des données sont des mesures quantitatives permettant d’évaluer la qualité des données. Les entreprises peuvent s’appuyer sur ces indicateurs pour suivre et surveiller la qualité de leurs données dans le temps, afin d’identifier les données de qualité, adaptées à la prise de décision fondée sur les données et aux cas d’utilisation de l’intelligence artificielle (IA).
Les indicateurs varient selon les entreprises et peuvent refléter les dimensions classiques de la qualité des données (précision, actualité, unicité, etc.) ou des caractéristiques propres aux pipelines de données modernes, comme la durée de traitement. Grâce à ces indicateurs, il est possible d’attribuer une valeur numérique aux différentes dimensions de qualité.
Les outils d’analyse de la qualité des données, reposant sur l’automatisation et le machine learning (ML), aident les ingénieurs en traitement des données à évaluer ces indicateurs et à repérer les problèmes de qualité en temps réel. Les équipes peuvent ainsi prendre les mesures nécessaires pour renforcer la fiabilité et la crédibilité de leurs jeux de données et de leurs pipelines de données.
Maintenir des données fiables et de haute qualité est un objectif majeur pour de nombreuses entreprises modernes – et pour cause.
Des données de qualité contribuent à produire une business intelligence pertinente, à améliorer l’efficacité opérationnelle, à optimiser les workflows, à assurer la conformité réglementaire, à renforcer la satisfaction client, à soutenir la croissance de l’entreprise et à progresser sur les indicateurs clés de performance (KPI). Une qualité de données élevée est également essentielle pour mener à bien des initiatives d’IA efficaces : les modèles d’intelligence artificielle doivent être entraînés sur des données fiables et précises pour fournir des résultats exploitables.
Pour en tirer pleinement parti, les entreprises doivent s’assurer que leurs données sont réellement de haute qualité. C’est là que les indicateurs de qualité des données jouent un rôle clé. Ces indicateurs permettent d’évaluer la qualité des données en attribuant des valeurs numériques (par exemple des scores) aux différentes dimensions de qualité..
Grâce à l’évaluation de la qualité des données, les entreprises peuvent déterminer la pertinence de leurs données pour la prise de décision et pour l’entraînement des modèles d’IA. Les données de faible qualité, identifiées par ces mesures, peuvent souvent être améliorées grâce à des actions de remédiation ciblées.
Six dimensions traditionnelles, suivies au moyen d’indicateurs de qualité des données, sont :
Les dimensions courantes de la qualité des données peuvent souvent être mesurées à l’aide de ratios simples, comme le ratio du nombre de résultats conformes (nombre de points de données exacts, d’entrées valides, etc.) sur le nombre total de résultats.2
Par exemple, une méthode simple de calcul de la complétude des données est :
Complétude = (nombre d’éléments de données complets) / (nombre total d’éléments de données)
Autre possibilité : utiliser une mesure inverse centrée sur les données incorrectes :
Complétude = 1 – [(éléments de données manquants) / (nombre total d’éléments de données)]
D’autres méthodes de mesure des dimensions nécessitent des calculs plus complexes.
Par exemple, les formules de calcul de l’actualité des données peuvent dépendre de variables telles que l’âge des données, la date de livraison (moment où les données sont livrées), la date d’entrée (moment où les données sont reçues), la volatilité (durée pendant laquelle les données restent valides).
En plus des indicateurs représentant les dimensions traditionnelles de la qualité des données, d’autres indicateurs clés peuvent aider les entreprises à maintenir le bon fonctionnement de leurs pipelines de données. En voici quelques exemples :
En savoir plus sur les indicateurs de qualité des données pour votre environnement.
Les indicateurs de qualité des données soutiennent des processus clés tels que la gouvernance des données, l’observabilité des données et la gestion de la qualité des données.
La gouvernance des données est une discipline de la gestion des données qui permet de garantir l’intégrité et la sécurité des données en définissant et en mettant en œuvre des politiques, des normes de qualité et des procédures relatives à la collecte, à la propriété, au stockage, au traitement et à l’utilisation des données. Des indicateurs de qualité des données tels que la cohérence et la complétude aident les entreprises à mesurer les progrès réalisés vers les objectifs fixés par les pratiques de gouvernance.
L’observabilité des données est une pratique qui associe surveillance et gestion des données afin de garantir leur qualité, leur disponibilité et leur fiabilité à travers les différents processus, systèmes et pipelines de l’entreprise. Les indicateurs de qualité des données suivis dans le cadre de l’observabilité incluent la fraîcheur des données, le nombre de valeurs nulles et les changements de schéma.
La gestion de la qualité des données, ou DQM (Data Quality Management), regroupe un ensemble de pratiques visant à améliorer et maintenir la qualité des données d’une entreprise. Une pratique essentielle de la DQM est le profilage des données, qui consiste à analyser la structure et le contenu des données existantes afin d’évaluer leur qualité et de définir une base de référence permettant de mesurer les actions correctives. La qualité des données est évaluée selon des dimensions et des indicateurs de qualité.
Les problèmes détectés lors du profilage peuvent être corrigés grâce à une autre pratique de la DQM : le nettoyage des données. Aussi appelé data cleaning, le nettoyage des données, ou consiste à corriger les erreurs de données et incohérences présentes dans les jeux de données brutes. Le nettoyage des données est une étape essentielle avant la transformation des données, qui convertit les données brutes en un format exploitable pour l’analyse.
Les solutions logicielles peuvent assurer une surveillance en temps réel de la qualité des données, y compris le suivi des performances sur les indicateurs de qualité des données. Les solutions les plus avancées peuvent inclure des fonctionnalités telles que :
Vue agrégée des pipelines et des actifs de données d’une entreprise, permettant la gestion des incidents liés aux données dans l’ensemble de l’architecture de données.
Surveillance des contrôles de qualité des données et des violations des accords de niveau de service (SLA) liées à des livraisons de données manquées, à des changements de schéma ou à des anomalies.
Notifications automatisées et personnalisées envoyées aux parties prenantes des données via des outils et plateformes tels que Slack, PagerDuty ou l’e-mail.
Graphiques présentant le nombre de lignes et d’opérations écrites et lues chaque jour, pour aider les entreprises à repérer les tendances importantes et les schémas problématiques.
La traçabilité des données de bout en bout montre les jeux de données et pipelines dépendants affectés par des problèmes de qualité des données.
IBM propose des solutions de qualité des données qui optimisent des aspects clés tels que la précision, l’exhaustivité et la cohérence.
IBM Databand permet de surveiller la qualité des données en temps réel pour détecter les problèmes de mauvaise qualité des données et garantir une meilleure qualité des données.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
1, 2 « A Survey of Data Quality Measurement and Monitoring Tools ». Frontiers in Big Data. 30 mars 2023.