Quelles sont les dimensions de la qualité des données ?

Définition des dimensions de qualité des données

Les dimensions de qualité des données offrent une approche structurée pour mesurer la qualité des données et évaluer leur fiabilité et leur utilité.

Les six dimensions principales —précision, complétude, cohérence, actualité, validité et unicité — aident les entreprises à maintenir l’intégrité des données, à évaluer la justesse des éléments de données et à prévenir les problèmes de qualité des données.

Le concept de dimensions de qualité des données a été formalisé en 1996 par les professeurs Richard Y. Wang et Diane M. Strong dans l’article « Beyond Accuracy: What Data Quality Means to Data Consumers », 1 qui identifiait à l’origine 15 dimensions. Le concept a depuis évolué de manière significative sans norme universelle. Toutefois, les six à douze dimensions fondamentales restent les plus largement adoptées dans la pratique.

Un élément crucial des stratégies de gestion des données, les dimensions de qualité des données fournissent aux entreprises un cadre permettant d’obtenir des données de haute qualité. En s’assurant que les données répondent aux normes d’exactitude, d’exhaustivité, de cohérence et d’autres dimensions, les entreprises peuvent réduire les inefficacités opérationnelles, améliorer la satisfaction des clients et maintenir la conformité réglementaire.

Des données de haute qualité soutiennent également des initiatives avancées telles que la modélisation prédictive, l’innovation en intelligence artificielle (IA) et les services personnalisés, favorisant ainsi de meilleures performances et un avantage concurrentiel.

Les six dimensions fondamentales de la qualité des données

Bien que le nombre de dimensions reconnues de la qualité des données varie, six dimensions fondamentales continuent d’être largement adoptées dans tous les secteurs. Chaque dimension traite d’un aspect spécifique de la qualité des données et fournit des critères pratiques pour évaluer la fiabilité et l’utilité. Ces dimensions servent également de base à la définition des indicateurs de qualité des données, que les entreprises utilisent pour mesurer et suivre les performances au fil du temps. Les dimensions essentielles sont les suivantes :

  • Exactitude
  • Complétude
  • Cohérence
  • Actualité
  • Validité
  • Unicité

Exactitude 

L’exactitude permet de déterminer dans quelle mesure les données représentent des entités ou des événements du monde réel et si elles peuvent être validées par rapport à des sources fiables. Des données exactes garantissent que les décisions de l’entreprise sont fondées sur des informations correctes, réduisant ainsi le risque d’erreurs et d’inefficacités. Par exemple, l’enregistrement précis des niveaux de stock permet aux entreprises de prendre des décisions éclairées en matière de réapprovisionnement des stocks.

Au-delà des avantages opérationnels, l’exactitude des données est essentielle pour des initiatives stratégiques telles que l’analyse prédictive et la segmentation de la clientèle. Des données inexactes peuvent entraîner des prévisions erronées, des campagnes marketing mal ciblées et des risques de non-conformité. Les entreprises peuvent investir dans des outils de validation des données, des audits périodiques et la formation de leurs employés afin de minimiser les erreurs humaines et de maintenir la confiance dans leur patrimoine de données.

Exhaustivité

L’exhaustivité consiste à vérifier si toutes les valeurs de données requises sont présentes et renseignées. Des données manquantes peuvent entraîner des analyses peu fiables et des décisions erronées. Par exemple, un dossier patient incomplet, ne comportant pas de champs critiques tels que la date de naissance ou les antécédents médicaux, peut compromettre la qualité des soins et le respect des réglementations.

Des valeurs de données incomplètes signalent souvent des faiblesses dans les processus de collecte ou l’intégration des systèmes. Pour remédier à ce problème, les entreprises peuvent mettre en œuvre des alertes automatisées pour les champs manquants, exploiter des sources de données tierces pour enrichir les données, surveiller les processus de saisie de données et établir des politiques de gouvernance des données qui définissent la responsabilité en matière d’exhaustivité des données.

Cohérence

Il est important de maintenir la cohérence des données entre les systèmes et les sources afin de garantir leur fiabilité. Des données incohérentes, comme un numéro de téléphone client différent entre un système de gestion de la relation client (CRM) et un système de gestion des commandes, peuvent être source de confusion, de doublons et d’autres problèmes.

La cohérence des données joue également un rôle essentiel dans la conformité réglementaire et l’exactitude des rapports. Les divergences entre les systèmes peuvent entraîner des échecs d’audit ou une mauvaise interprétation des résultats financiers. Les cadres centralisés de gouvernance des données et les outils d’intégration des données aident les départements à travailler à partir des mêmes données, réduisant ainsi le risque d’erreurs.

Actualité

L’actualité (ou fraîcheur) mesure si les données sont disponibles au moment où elles sont nécessaires et reflètent la situation la plus actuelle. Des données obsolètes ou en retard peuvent entraîner des occasions manquées et des inefficacités opérationnelles.

L’actualité est de plus en plus importante dans des secteurs en évolution rapide comme la finance, la santé et le commerce électronique, où les décisions doivent être prises instantanément. Par exemple, dans le trading financier, les mises à jour en temps réel des cours des actions sont essentielles pour exécuter des décisions d’achat ou de vente en temps voulu.

Les entreprises peuvent garantir l’actualité des données en programmant des mises à jour régulières, en activant des flux en temps réel pour les opérations critiques et en surveillant la latence des pipelines de données. De plus, les entreprises peuvent tirer parti de technologies telles que les architectures événementielles et l’analytique en continu pour maintenir la fraîcheur des données. L’établissement d’accords de niveau de service (SLA) pour la livraison des données permet également de maintenir les attentes et favorise une prise de décision agile.

Validité

Dans le contexte de la qualité des données, la validité fait référence à la conformité des données à des règles, formats et normes prédéfinis. Si les données enfreignent ces règles, elles sont considérées comme invalides, ce qui peut entraîner des échecs de processus, des rapports inexacts et d’autres problèmes.

Au-delà de la conformité au format, la validité garantit que les données respectent les règles logiques et contextuelles. Par exemple, une date de naissance ne doit pas se situer dans le futur et les codes des produits doivent correspondre aux spécifications du catalogue. Les entreprises garantissent la validité des données en appliquant des règles lors de la saisie, en utilisant des outils automatisés de détection des anomalies et en alignant les normes sur les réglementations sectorielles.

Unicité
 

L’unicité détermine si chaque enregistrement est distinct et n’est pas dupliqué. Maintenir l’unicité améliore non seulement la précision des rapports, mais aussi l’efficacité opérationnelle et la confiance des clients en confirmant que les interactions reposent sur des informations non redondantes. Les doublons d’enregistrements peuvent entraîner des problèmes tels que des indicateurs exagérés, des analyses faussées, un gaspillage de ressources et des retards de service.

Les données dupliquées proviennent souvent de migrations système, d’erreurs de saisie manuelle ou d’un manque d’intégration entre les plateformes. Pour atténuer ce problème, les entreprises peuvent déployer des algorithmes de rapprochement des données, appliquer des politiques d’identité strictes (règles définissant la manière dont les identifiants utilisateurs uniques sont générés lors de la création d’un compte)2 et utiliser des tableaux de bord de qualité des données pour surveiller les tendances en matière de duplication.

Outre ces six dimensions, d’autres dimensions sont prises en compte, telles que l’intégrité, la traçabilité, la disponibilité, la fiabilité, la précision et la pertinence, en fonction des besoins de l’entreprise.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Pourquoi les dimensions de la qualité des données sont-elles importantes ?

Éléments fondamentaux de la qualité des données, les dimensions de qualité des données aident les entreprises à quantifier, vérifier, surveiller et améliorer la fiabilité et la crédibilité de leurs actifs informationnels. Des données de faible qualité, telles que des jeux de données avec des valeurs manquantes, des doublons ou des informations obsolètes, peuvent entraîner des modèles biaisés, des analyses erronées et des résultats peu fiables, entraînant d’importantes pertes financières. En fait, plus de 25 % des employés des données et de l’analyse du monde entier affirment que la mauvaise qualité des données entrave la maîtrise des données, ce qui coûte à leur organisation plus de 5 millions de dollars par an. 7 % déclarent des pertes de 25 millions USD ou plus, rapporte Forrester.

À l’ère de l’IA et du machine learning, les dimensions de la qualité des données sont devenues indispensables. Les workflows d’IA agentique s’accélèrent en vue d’une adoption généralisée et leur succès dépendra de l’intégrité et de la précision des données sous-jacentes.

Un rapport récent de l’Institute for Business Value d’IBM, « From IA Projects to Profits », estime que les workflows d’IA agentique devraient être multipliés par huit d’ici 2026. Les entreprises qui n’accordent pas la priorité à la qualité des données risquent de compromettre les fondements mêmes de leurs stratégies d’IA, ainsi que leurs capacités d’analyse, leur conformité réglementaire et leur prise de décision, transformant des avancées potentielles en revers coûteux.

Comment mettre en œuvre les dimensions de la qualité des données

Avant de mettre en œuvre les dimensions de la qualité des données, il est utile d’établir un cadre structuré de qualité des données. Ce cadre peut combiner des politiques, des processus et des technologies afin de maintenir ces dimensions tout au long du cycle de vie des données. Ensuite, les entreprises mettent généralement en œuvre les dimensions de qualité des données en trois étapes interconnectées :

  • Évaluation et définition
  • Mesure et surveillance
  • Correction et amélioration continue

Évaluation et définition

Les entreprises commencent souvent par évaluer l’état actuel de leurs données pour en comprendre la qualité. Les outils de profilage des données sont couramment utilisés pour identifier des problèmes tels que des valeurs manquantes, des enregistrements dupliqués, des formats non valides et des types de données incorrects. Cette évaluation fournit une base d’amélioration.

L’alignement des parties prenantes est également essentiel à ce stade. Les priorités varient d’une unité opérationnelle à l’autre : l’actualité peut être plus importante pour l’analytique en temps réel, tandis que l’exactitude et la validité sont essentielles pour la conformité.

Ensuite, la définition des exigences et des critères de référence permet d’établir des attentes claires quant à ce qui constitue une qualité des données acceptable, souvent exprimée sous forme de seuils ou de scores minimums pour chaque dimension. Les entreprises peuvent également définir des règles de qualité des données — des conditions ou contraintes spécifiques que les données doivent respecter pour se conformer à ces références. Ces règles servent de base aux contrôles de validation et à la mise en œuvre automatisée à un stade ultérieur du processus.

Mesure et surveillance

La qualité des données est souvent évaluée à l’aide de mesures quantitatives qui indiquent dans quelle mesure les données respectent les normes définies. Les indicateurs courants incluent la complétude (pourcentage de champs requis remplis), la précision (alignement avec les sources fiables) et la cohérence (uniformité entre les systèmes). Ces indicateurs sont intégrés dans les cadres de gouvernance et les workflows opérationnels afin d’assurer une visibilité continue.

La surveillance continue est essentielle, car la qualité des données est dynamique ; les modifications des systèmes sources, des processus ou des règles métier peuvent introduire de nouveaux risques. La surveillance peut impliquer l’application de règles de validation et l’exécution de contrôles qualité tout au long du cycle de vie des données, de l’ingestion au reporting. De nombreux outils de qualité des données fournissent des tableaux de bord et des alertes permettant de suivre la conformité et de détecter les anomalies en temps réel.

Correction et amélioration continue

L’amélioration continue de la qualité des données est un principe clé, soutenu par des audits réguliers, des normes mises à jour et des boucles de rétroaction qui s’adaptent à l’évolution des besoins de l’entreprise et des technologies. Les informations issues des mesures et de la surveillance éclairent les mesures correctives telles que le nettoyage, l’enrichissement et la déduplication des données. Au-delà de la correction des erreurs, les entreprises pourraient utiliser ces informations pour affiner les processus de gouvernance et améliorer les méthodes de collecte de données afin d’éviter les problèmes récurrents.

Avantages des dimensions de la qualité des données

Définir et comprendre les dimensions de la qualité des données offre aux entreprises de nombreux avantages, notamment :

  • Prise de décision éclairée
  • Conformité réglementaire
  • Optimisation des workflows
  • Satisfaction du client
  • Atténuation des risques
Prise de décision éclairée

Des données précises et de haute qualité garantissent que les analyses et la business intelligence fournissent des informations conformes à la réalité. Lorsque les processus de collecte de données sont standardisés et validés par une évaluation de la qualité des données, les décideurs peuvent faire confiance aux informations recueillies et agir en toute confiance.

Cette pratique réduit les approximations et soutient les modèles prédictifs qui génèrent un avantage concurrentiel. Par exemple, les institutions financières s’appuient sur des données transactionnelles précises et actualisées pour prévenir la fraude et maintenir des alertes en temps réel, tandis que les fabricants utilisent des données validées sur les fournisseurs et les stocks pour éviter les retards de production.

Conformité réglementaire

Les dimensions de la qualité des données aident les entreprises à respecter les normes internes de gouvernance et les exigences réglementaires externes, telles que les audits financiers ou les obligations du secteur de la santé. L’intégration des contrôles de conformité dans les workflows minimise les risques juridiques et garantit la transparence dans la manière dont les données sont collectées, stockées et utilisées. Dans le secteur de la santé, par exemple, les règles de validation garantissent que les dossiers patients respectent les formats appropriés pour les dates de naissance et les codes médicaux, réduisant ainsi le risque de prescriptions incorrectes ou de refus de remboursement.

Optimisation des workflows

La mise en œuvre des dimensions de la qualité des données rationalise les workflows en réduisant les corrections manuelles, la gestion des doublons et les reprises causées par des données inexactes ou incomplètes. Lorsque les données sont exactes, cohérentes et actualisées, les équipes peuvent automatiser les processus en toute confiance, accélérer la prise de décision et réduire les goulets d’étranglement opérationnels.

Satisfaction du client

Des données clients exactes, complètes et cohérentes, telles que des adresses correctes, permettent d’offrir des expériences pertinentes et opportunes qui renforcent la satisfaction client, améliorant ainsi la fidélité et la réputation de la marque. Dans le commerce de détail, des données tarifaires exactes dans les catalogues produits et les annonces en ligne permettent d’éviter les pertes de revenus et l’insatisfaction, tandis que dans les services publics, des dossiers citoyens synchronisés garantissent une prestation efficace des services.

Atténuation des risques

La détection précoce des anomalies grâce aux contrôles de qualité des données réduit le risque de perturbations majeures de l’activité. Des dimensions telles que l’intégrité et la traçabilité aident les entreprises à surveiller les workflows et à identifier les problèmes avant qu’ils ne s’aggravent, réduisant ainsi les risques financiers et réputationnels. Par exemple, les banques utilisent la déduplication et la validation pour éviter les transactions en double, tandis que les organismes publics appliquent des contrôles d’exhaustivité pour éviter les retards dans la fourniture de services essentiels tels que les soins de santé ou l’aide au logement.

Techsplainers | Podcast

Écoutez : « Quelles sont les dimensions de la qualité des données ? »

Suivre le podcast Techsplainers : Spotify et Apple Podcasts

Auteurs

Judith Aquino

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Solutions connexes
IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets
IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

  1. Découvrir les solutions de gestion des données
  2. Découvrir watsonx.data
Notes de bas de page

1 Beyond accuracy: What data quality means to data consumers, Journal of Management Information Systems, printemps 1996

2 Creating an identity policy, IBM Security Identity Manager, 13 mai 2022