Qu’est-ce qu’une mauvaise donnée ?

By Alexandra Jonker , Tom Krantz

Définition des mauvaises données

Une mauvaise donnée désigne une information qui compromet la prise de décision parce qu’elle est inexacte, incomplète, incohérente, obsolète, dupliquée, non valide ou biaisée.

Les causes des mauvaises données varient. Elles découlent parfois d’une mauvaise architecture des données, et parfois d’une erreur humaine. Quelle qu’en soit l’origine, lorsque les entreprises utilisent involontairement de mauvaises données, les conséquences peuvent aller de simples désagréments, comme l’envoi de documents fiscaux à la mauvaise adresse, à des risques graves, tels que la non-conformité réglementaire, l’atteinte à la réputation et les pertes financières.

L’un des dangers propres aux mauvaises données réside dans leur caractère furtif. Contrairement à une panne système, les effets des mauvaises données peuvent passer inaperçus jusqu’à ce que des dommages importants aient été causés. Les entreprises peuvent fonctionner pendant des années avec de mauvaises données sans le savoir. Par exemple, une équipe commerciale remarquerait immédiatement si son tableau de bord Salesforce ne se chargeait pas, mais il lui faudrait beaucoup plus de temps pour se rendre compte que les données affichées sont erronées.

Alors que les volumes de big data explosent et que les dirigeants s’appuient de plus en plus sur les données pour alimenter l’intelligence artificielle (IA) et la prise de décision, il est plus important que jamais de maximiser la qualité des données. Grâce à une gouvernance des données, à des pratiques de gestion de la qualité des données et à des outils d’observabilité des données solides, les organisations peuvent contribuer à faire en sorte que leurs actifs de données alimentent leur croissance, au lieu de devenir des passifs invisibles.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Types de mauvaises données

Les mauvaises données peuvent être globalement classées selon les principales dimensions de la qualité des données :

Données inexactes
Données incomplètes
Données incohérentes
Données obsolètes
Données dupliquées
Données non valides
Données biaisées

Données inexactes

L’exactitude des données mesure à quel degré de fidélité les données reflètent des événements et des valeurs réels. Lorsqu’elles sont inexactes, les données contiennent des erreurs et ne sont pas fiables pour la prise de décision. Par exemple, des données clients inexactes (telles que des points de données relatifs aux prix) peuvent fausser la compréhension qu’une entreprise a de son public et entraîner des actions mal orientées qui dégradent les taux de satisfaction client.

Données incomplètes

Les données incomplètes sont des données auxquelles il manque des enregistrements et des valeurs nécessaires, créant des lacunes qui affectent le traitement et l’analyse des données. Un écart important peut même introduire un biais, car les résultats de l’analyse peuvent ne pas être représentatifs du véritable jeu de données. Par exemple, si la plupart des entrées d’une base de données client ne comportent pas d’informations de contact, les équipes commerciales manqueront des occasions d’interagir avec leurs clients.

Données incohérentes

Les données incohérentes manquent de normalisation et sont largement incompatibles entre différents jeux de données et systèmes. Les divergences dans les formats de date, les conventions de nommage et les unités de mesure peuvent semer la confusion chez les utilisateurs, créer des silos de données au sein de plateformes spécifiques et introduire des erreurs dans le reporting ou l’analyse.

Données obsolètes

Les données obsolètes sont des informations qui ne sont plus à jour, ce qui peut amener les décideurs à utiliser des informations non pertinentes qui ne représentent pas les conditions réelles. La fraîcheur des données est un indicateur qui définit à quelle fréquence les informations d’une base de données sont mises à jour. Des intervalles particulièrement longs entre les mises à jour peuvent entraîner l’obsolescence des données.

Données dupliquées

Les données dupliquées, ou données redondantes, désignent des entrées répétées dans un ensemble de données ; une donnée unique ne doit apparaître qu’une seule fois. Elles peuvent fausser l’analyse en surreprésentant certaines valeurs ou tendances. Il est important de noter qu’il existe des cas d’utilisation où la redondance intentionnelle des données dans la conception des bases de données permet de garantir une haute disponibilité, l’intégrité des données et leur cohérence.

Données non valides

Les données non valides sont des informations qui ne respectent pas les règles système ou métier, (telles que les plages de valeurs autorisées, les formats requis et les types de données définis). Il peut s’agir, par exemple, de données contenant un caractère spécial non pris en charge ou de numéros de téléphone formatés sans les traits d’union requis.

Données biaisées

Bien que le biais ne soit pas en soi une dimension de la qualité des données, il constitue un facteur important que les parties prenantes doivent prendre en compte, car il influence plusieurs de ces dimensions. Les données biaisées sont déformées ou non représentatives des événements, populations et conditions réels. Elles peuvent entraîner des résultats injustes, inexacts et peu fiables, et, lorsqu’elles sont utilisées dans des systèmes de machine learning (ML) et d’IA, avoir des conséquences graves pour les individus, les entreprises et la société.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Accéder à l’épisode

Quel est l’impact des mauvaises données ?

Les mauvaises données sont l’antithèse des bonnes données. Alors que des données de haute qualité favorisent la croissance et l’innovation, des données de mauvaise qualité ralentissent les progrès.

Les entreprises s’appuient sur les données pour prendre des décisions éclairées, obtenir des informations exploitables et réaliser des prévisions pour leurs opérations internes comme pour leurs expériences client. Les décisions fondées sur de mauvaises données peuvent entraîner des occasions manquées, des inefficacités opérationnelles et une réputation ternie. Dans des secteurs comme la finance ou la santé, où les données contribuent à éclairer des décisions à forts enjeux, de mauvaises données peuvent avoir des conséquences graves, voire catastrophiques.

Prenons l’exemple d’une étude clinique contenant des données patients incohérentes. Les chercheurs auraient du mal à comparer les résultats, ce qui pourrait retarder le développement de traitements potentiels. Dans la finance, des données inexactes ou manquantes peuvent entraîner des coûts de conformité élevés. Des rapports financiers inexacts peuvent conduire à des violations de réglementations comme la loi Sarbanes-Oxley (SOX), qui peuvent entraîner des amendes allant jusqu’à 1 million de dollars et jusqu’à 10 ans d’emprisonnement.

Les risques liés aux mauvaises données s’accentuent dans le contexte de l’intelligence artificielle. Lorsque des modèles d’IA ou de ML sont entraînés sur des données inexactes, incohérentes ou biaisées, leurs résultats reflètent ces erreurs. Pour maximiser leurs investissements dans l’IA et le ML, les organisations doivent s’assurer que leurs données sont adaptées à l’IA.

Unity Technologies est un exemple parlant des conséquences des mauvaises données dans l’IA et le ML. En 2022, l’algorithme de placement publicitaire de cette entreprise de jeux vidéo a ingéré de mauvaises données provenant d’un grand client. Les performances de l’algorithme se sont dégradées au point qu’il a fallu le reconstruire. L’incident a contribué à une chute de 37 % de l’action Unity et à un impact estimé à 110 millions de dollars sur l’entreprise.

À l’inverse, de bonnes données exactes peuvent constituer un atout majeur pour les initiatives d’IA. Les recherches de l’IBM Institute for Business Value ont montré que les entreprises disposant de données fiables obtenaient un retour sur investissement près de deux fois supérieur grâce à leurs capacités d’IA. Conclusion : les bonnes données sont une priorité non négociable pour toute stratégie fondée sur l’IA ou les données.

Quelles sont les causes des mauvaises données ?

Il n’existe pas de cause racine aux mauvaises données. Elles peuvent provenir de la technologie, des processus ou des personnes, et résultent généralement d’une combinaison de plusieurs facteurs. Parmi les causes courantes d’une mauvaise qualité des données, on trouve notamment :

Défaillances système
Dégradation des données
Collecte de données peu fiable
Faible gouvernance des données
Erreur humaine
Ruptures d’intégration ou de migration des données

Défaillances système

Les architectures de données mal conçues peuvent entraîner des silos de données, des performances lentes et des bugs logiciels qui dégradent la cohérence et la fiabilité des données. Lorsque les systèmes tombent en panne, les fichiers peuvent être corrompus ou rester incomplets, ce qui se traduit par des valeurs manquantes et des inexactitudes dans les processus en aval.

Dégradation des données

De nombreux types de données métier (comme les indicateurs de comportement des consommateurs) sont susceptibles de se dégrader s’ils ne sont pas mis à jour régulièrement. Lorsque les bases de données sont obsolètes, les informations ou décisions qui en découlent sont elles-mêmes dépassées, et probablement inexactes.

Collecte de données peu fiable

Les mauvaises données peuvent apparaître dès la collecte, et pas seulement en raison de sources ou de fournisseurs de données de mauvaise qualité. Les biais, les méthodes incohérentes, les outils défectueux ou les mesures inexactes lors de la saisie et du traitement des données peuvent tous compromettre la qualité des données.

Faible gouvernance des données

En tant que discipline, la gouvernance des données définit et met en œuvre des politiques, des normes et des procédures pour l’ensemble du cycle de vie des données. Lorsque ces pratiques sont appliquées de manière incohérente ou sans responsabilisation claire, la qualité des données se dégrade rapidement.

Erreur humaine

L’erreur humaine est souvent à l’origine de données erronées. Les fautes de frappe lors de la saisie manuelle, le codage incohérent des données, les biais ou les mauvaises interprétations peuvent tous entraîner des inexactitudes. L’erreur humaine est aggravée par les contraintes de temps, une formation insuffisante et des systèmes mal conçus.

Ruptures d’intégration ou de migration

La migration ou l’intégration des données sans processus, planification et technologies appropriés peut entraîner des pertes de données, des incohérences et des inexactitudes. Ces problèmes découlent souvent de formats et de structures de données incompatibles ou de dépendances non détectées.

Comment prévenir les mauvaises données

Dans un monde parfait, les mauvaises données seraient détectées à la source et n’atteindraient jamais les systèmes en aval ni les workflows d’analyse de données. En réalité, toutefois, la qualité des données peut se dégrader à n’importe quel stade de leur cycle de vie, et pour de nombreuses raisons différentes.

La prévention des mauvaises données à toutes les étapes nécessite une stratégie globale qui traite les risques à chaque phase. Cette stratégie peut intégrer les pratiques suivantes :

Gouvernance et stratégie
Surveillance et visibilité
Nettoyage et résolution
Compétences et maîtrise des données

Gouvernance et stratégie

La mise en place d’une gouvernance des données solide constitue une première étape essentielle pour prévenir les mauvaises données. Elle définit et applique les politiques, normes et procédures nécessaires au maintien de données exactes et de haute qualité tout au long de leur cycle de vie. Des cadres de gouvernance robustes peuvent aider les entreprises à identifier et corriger les inexactitudes avant qu’elles n’influencent la prise de décision et l’efficacité opérationnelle.

Une gouvernance des données efficace doit compléter et renforcer la stratégie de données globale de l’entreprise. Elle fonctionne généralement en parallèle avec d’autres disciplines, telles que la gestion des données, la sécurité des données et l’architecture des données, afin de préserver la cohérence et la fiabilité des données.

Surveillance et visibilité

On ne peut pas corriger de mauvaises données si l’on ignore leur existence. Les entreprises peuvent utiliser plusieurs processus pour obtenir de la visibilité sur l’état de leurs données et en surveiller la santé en continu :

Traçabilité des données : ces outils offrent une vision claire de la manière dont les données (ainsi que leurs métadonnées) circulent et évoluent tout au long de leur cycle de vie, depuis leur origine jusqu’à leur destination finale. La visibilité sur la traçabilité des données facilite l’analyse des causes profondes et la conformité réglementaire.
Audits des données : l’examen et l’analyse réguliers des données d’entreprise permettent de dresser une cartographie visuelle de l’environnement de données. Les audits aident les organisations à découvrir, classer et surveiller leurs données afin de mettre au jour les risques, les inexactitudes et les incohérences.
Profilage des données : le processus de profilage des données analyse les données afin d’obtenir des informations sur leur structure et leur qualité, pour permettre aux équipes de planifier la résolution. Il est généralement réalisé par des ingénieurs de données, qui utilisent diverses règles métier et différents algorithmes analytiques.
Observabilité des données : au-delà de la surveillance traditionnelle, les outils d’observabilité des données s’appuient sur l’automatisation et l’intelligence pour aider à identifier, diagnostiquer et résoudre les problèmes de données en temps quasi réel, avant qu’ils n’aient l’occasion de se propager aux opérations métier.

Nettoyage et résolution

Une fois les erreurs de données et leurs causes profondes identifiées, les mauvaises données doivent être corrigées. Les processus de nettoyage des données visent à traiter les problèmes courants de qualité des données, tels que les enregistrements dupliqués, les valeurs manquantes, les incohérences, les erreurs de syntaxe, les données non pertinentes et les erreurs structurelles. Les techniques courantes incluent la normalisation, le traitement des données aberrantes et des valeurs manquantes, la déduplication et la validation des données.

Les équipes de données utilisent de plus en plus l’IA pour automatiser et optimiser plusieurs de ces étapes, en particulier des tâches comme la normalisation et la déduplication.

Compétences et maîtrise des données

Les entreprises qui maîtrisent les données possèdent les compétences nécessaires pour lire, comprendre, utiliser les données et communiquer à partir de ces dernières afin d’améliorer la prise de décision. La capacité à évaluer les données de manière critique améliore également leur qualité globale : les employés disposant même de compétences élémentaires en données sont mieux équipés pour repérer les biais, les incohérences, les inexactitudes ou les valeurs manquantes.

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Rendu 3D d'une spirale de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Consultez le guide du responsable des données pour découvrir comment préparer les données de votre organisation à l'IA.

Ressources

Rendu 3D de plusieurs icônes alignées, comme un microphone et une caméra

Les agents d’IA s'appuient sur des données. Les vôtres sont-elles prêtes ?

Vos données sont votre avantage concurrentiel. Découvrez comment les exploiter en toute sécurité et générer un ROI mesurable grâce à l’IA dans ce court webinaire.

La gestion des données expliquée

Techsplainers by IBM présente l’essentiel des données pour l’IA, des concepts clés aux cas d’utilisation concrets. Des épisodes clairs et rapides vous permettent d’apprendre rapidement les principes fondamentaux.

Rendu 3D de plusieurs icônes alignées comme un bouton de volume et un presse-papiers

Unifiez vos données pour dimensionner votre IA

Découvrez pourquoi la mise en place de données adaptées à l’IA commence souvent par un accès efficace aux données structurées et non structurées, ainsi que les défis auxquels peuvent être confrontés les responsables des données.

Des frais juridiques aux informations stratégiques

Découvrez comment un agent juridique alimenté par l’IA aide à accélérer la prise de décision, à réduire le travail manuel et à améliorer la conformité.

Deux hommes qui discutent dans un podcast

AI Academy : Élaborer une stratégie de données pour l’IA d’entreprise

Dans cet épisode, Cathy Reese explique pourquoi les entreprises doivent aujourd’hui se doter d’une stratégie de données adaptée à l’IA avancée, en s’appuyant sur leurs ressources de données les plus qualitatives.

Rendu 3D de plusieurs icônes alignées telles qu’un appareil photo et des avions en papier

Le data lakehouse hybride et ouvert pour l'IA

Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.

Rapport sur le coût d’une violation de données 2025

Les coûts liés aux violations de données ont atteint un nouveau sommet. Obtenez des informations actualisées sur les menaces de cybersécurité et leur incidence financière sur les entreprises.

Rendu 3D de deux lignes de plusieurs icônes telles qu’un appareil photo, un bouton de volume et un presse-papiers.

Guide du responsable des données adaptées à l’IA

Comprenez les mesures concrètes que les responsables des données peuvent prendre pour surmonter les défis en matière de données, établir les bases d'un socle de données de confiance et préparer les données de votre entreprise pour l’IA.

Rendu 3D de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Comment la direction transforme les informations en impact

Découvrez les retours de 1 700 CDO dans ce rapport intersectoriel dédié aux responsables de données.

Solutions connexes

IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets

IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data

Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique

Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.