Le diable est dans les données : comment les indicateurs de qualité des données permettent aux entreprises de prendre de l’avance

Chef de produit animant une réunion, expliquant des données à l’aide d’un écran avec des graphiques.

Auteurs

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Favoriser un environnement de données dynamique peut aider les entreprises à accélérer leur croissance, selon une nouvelle étude de l’IBM Institute for Business Value. Mais comment savoir si les données sont réellement dynamiques et prêtes à soutenir cette croissance ?

La réponse passe par les indicateurs de qualité des données.

Les indicateurs de qualité des données sont des mesures quantitatives permettant d’évaluer la qualité des données. Les entreprises peuvent s’appuyer sur ces indicateurs pour suivre et surveiller la qualité de leurs données dans le temps, afin d’identifier les données de qualité, adaptées à la prise de décision fondée sur les données et aux cas d’utilisation de l’intelligence artificielle (IA).

Les indicateurs varient selon les entreprises et peuvent refléter les dimensions classiques de la qualité des données (précision, actualité, unicité, etc.) ou des caractéristiques propres aux pipelines de données modernes, comme la durée de traitement. Grâce à ces indicateurs, il est possible d’attribuer une valeur numérique aux différentes dimensions de qualité.

Les outils d’analyse de la qualité des données, reposant sur l’automatisation et le machine learning (ML), aident les ingénieurs en traitement des données à évaluer ces indicateurs et à repérer les problèmes de qualité en temps réel. Les équipes peuvent ainsi prendre les mesures nécessaires pour renforcer la fiabilité et la crédibilité de leurs jeux de données et de leurs pipelines de données.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Pourquoi les indicateurs de qualité des données sont-ils importants ?

Maintenir des données fiables et de haute qualité est un objectif majeur pour de nombreuses entreprises modernes – et pour cause.

Des données de qualité contribuent à produire une business intelligence pertinente, à améliorer l’efficacité opérationnelle, à optimiser les workflows, à assurer la conformité réglementaire, à renforcer la satisfaction client, à soutenir la croissance de l’entreprise et à progresser sur les indicateurs clés de performance (KPI). Une qualité de données élevée est également essentielle pour mener à bien des initiatives d’IA efficaces : les modèles d’intelligence artificielle doivent être entraînés sur des données fiables et précises pour fournir des résultats exploitables.

Pour en tirer pleinement parti, les entreprises doivent s’assurer que leurs données sont réellement de haute qualité. C’est là que les indicateurs de qualité des données jouent un rôle clé. Ces indicateurs permettent d’évaluer la qualité des données en attribuant des valeurs numériques (par exemple des scores) aux différentes dimensions de qualité..

Grâce à l’évaluation de la qualité des données, les entreprises peuvent déterminer la pertinence de leurs données pour la prise de décision et pour l’entraînement des modèles d’IA. Les données de faible qualité, identifiées par ces mesures, peuvent souvent être améliorées grâce à des actions de remédiation ciblées.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Principales dimensions de la qualité des données

Six dimensions traditionnelles, suivies au moyen d’indicateurs de qualité des données, sont :

  • Exactitude des données : les données reflètent correctement les événements et valeurs réels.
  • Complétude des données : les données contiennent tous les enregistrements nécessaires, sans valeurs manquantes.
  • Cohérence des données : les données sont harmonisées et normalisées dans l’ensemble de l’entreprise, garantissant la compatibilité des enregistrements entre différents jeux de données.
  • Actualité des données : les valeurs sont à jour, ce qui permet d’éviter des décisions basées sur des informations obsolètes.
  • Unicité des données : les données sont exemptes de redondances ou de doublons, qui peuvent fausser les analyses.
  • Validité des données : les données respectent les règles métier, par exemple en restant dans les plages de valeurs autorisées et en suivant les formats définis.

Les dimensions courantes de la qualité des données peuvent souvent être mesurées à l’aide de ratios simples, comme le ratio du nombre de résultats conformes (nombre de points de données exacts, d’entrées valides, etc.) sur le nombre total de résultats.2

Par exemple, une méthode simple de calcul de la complétude des données est :

Complétude = (nombre d’éléments de données complets) / (nombre total d’éléments de données)

Autre possibilité : utiliser une mesure inverse centrée sur les données incorrectes :

Complétude = 1 – [(éléments de données manquants) / (nombre total d’éléments de données)]

D’autres méthodes de mesure des dimensions nécessitent des calculs plus complexes.

Par exemple, les formules de calcul de l’actualité des données peuvent dépendre de variables telles que l’âge des données, la date de livraison (moment où les données sont livrées), la date d’entrée (moment où les données sont reçues), la volatilité (durée pendant laquelle les données restent valides).

Autres indicateurs de qualité des données

En plus des indicateurs représentant les dimensions traditionnelles de la qualité des données, d’autres indicateurs clés peuvent aider les entreprises à maintenir le bon fonctionnement de leurs pipelines de données. En voici quelques exemples :

  • Fraîcheur des données : parfois utilisée comme synonyme de l’actualité des données, la fraîcheur se réfère plus précisément à la fréquence à laquelle les données sont mises à jour dans un système. Des données obsolètes apparaissent lorsqu’il existe des intervalles importants entre les mises à jour.
  • Traçabilité des données : la traçabilité des données consiste à observer et à suivre les différents points de contact tout au long du cycle de vie des données. Elle aide les entreprises à confirmer l’exactitude et la cohérence des données.
  • Comptage des valeurs nulles : les ingénieurs en traitement des données et les analystes peuvent suivre le nombre ou le pourcentage de valeurs nulles dans une colonne. Une augmentation du nombre de valeurs nulles peut indiquer des problèmes tels que des données manquantes ou une dérive des données.
  • Modifications de schéma : des changements fréquents de schéma, tels qu’une modification du type de données d’une colonne ou l’ajout de nouvelles colonnes, peuvent indiquer qu’une source de données n’est pas fiable.
  • Défaillances des pipelines : les défaillances des pipelines peuvent entraîner des problèmes de qualité des données tels que des modifications non prévues du schéma, des opérations de données manquantes ou des données obsolètes.
  • Durée du pipeline : les pipelines de données complexes mettent généralement un temps similaire à s’exécuter d’une exécution à l’autre. Une variation importante de la durée d’exécution peut entraîner le traitement de données obsolètes.

En savoir plus sur les indicateurs de qualité des données pour votre environnement.

Indicateurs de qualité des données dans les processus clés de gestion des données

Les indicateurs de qualité des données soutiennent des processus clés tels que la gouvernance des données, l’observabilité des données et la gestion de la qualité des données.

Gouvernance des données

La gouvernance des données est une discipline de la gestion des données qui permet de garantir l’intégrité et la sécurité des données en définissant et en mettant en œuvre des politiques, des normes de qualité et des procédures relatives à la collecte, à la propriété, au stockage, au traitement et à l’utilisation des données. Des indicateurs de qualité des données tels que la cohérence et la complétude aident les entreprises à mesurer les progrès réalisés vers les objectifs fixés par les pratiques de gouvernance.

Observabilité des données

L’observabilité des données est une pratique qui associe surveillance et gestion des données afin de garantir leur qualité, leur disponibilité et leur fiabilité à travers les différents processus, systèmes et pipelines de l’entreprise. Les indicateurs de qualité des données suivis dans le cadre de l’observabilité incluent la fraîcheur des données, le nombre de valeurs nulles et les changements de schéma.

Gestion de la qualité des données

La gestion de la qualité des données, ou DQM (Data Quality Management), regroupe un ensemble de pratiques visant à améliorer et maintenir la qualité des données d’une entreprise. Une pratique essentielle de la DQM est le profilage des données, qui consiste à analyser la structure et le contenu des données existantes afin d’évaluer leur qualité et de définir une base de référence permettant de mesurer les actions correctives. La qualité des données est évaluée selon des dimensions et des indicateurs de qualité.

Les problèmes détectés lors du profilage peuvent être corrigés grâce à une autre pratique de la DQM : le nettoyage des données. Aussi appelé data cleaning, le nettoyage des données, ou consiste à corriger les erreurs de données et incohérences présentes dans les jeux de données brutes. Le nettoyage des données est une étape essentielle avant la transformation des données, qui convertit les données brutes en un format exploitable pour l’analyse.

Outils de suivi des indicateurs de qualité des données

Les solutions logicielles peuvent assurer une surveillance en temps réel de la qualité des données, y compris le suivi des performances sur les indicateurs de qualité des données. Les solutions les plus avancées peuvent inclure des fonctionnalités telles que :

Tableaux de bord complets

Vue agrégée des pipelines et des actifs de données d’une entreprise, permettant la gestion des incidents liés aux données dans l’ensemble de l’architecture de données.

Surveillance en temps réel

Surveillance des contrôles de qualité des données et des violations des accords de niveau de service (SLA) liées à des livraisons de données manquées, à des changements de schéma ou à des anomalies.

Alertes personnalisées

Notifications automatisées et personnalisées envoyées aux parties prenantes des données via des outils et plateformes tels que Slack, PagerDuty ou l’e-mail.

Graphiques des tendances

Graphiques présentant le nombre de lignes et d’opérations écrites et lues chaque jour, pour aider les entreprises à repérer les tendances importantes et les schémas problématiques.

Traçabilité de bout en bout

La traçabilité des données de bout en bout montre les jeux de données et pipelines dépendants affectés par des problèmes de qualité des données.

Solutions connexes
Solutions de qualité des données

IBM propose des solutions de qualité des données qui optimisent des aspects clés tels que la précision, l’exhaustivité et la cohérence.

Découvrir les solutions de qualité des données
IBM Databand

IBM Databand permet de surveiller la qualité des données en temps réel pour détecter les problèmes de mauvaise qualité des données et garantir une meilleure qualité des données.

Découvrir Databand
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données Découvrir watsonx.data
Notes de bas de page

1, 2 « A Survey of Data Quality Measurement and Monitoring Tools ». Frontiers in Big Data. 30 mars 2023.