Qu’est-ce qu’une mauvaise donnée ?

Définition des mauvaises données

Une mauvaise donnée désigne une information qui compromet la prise de décision parce qu’elle est inexacte, incomplète, incohérente, obsolète, dupliquée, non valide ou biaisée.

Les causes des mauvaises données varient. Elles découlent parfois d’une mauvaise architecture des données, et parfois d’une erreur humaine. Quelle qu’en soit l’origine, lorsque les entreprises utilisent involontairement de mauvaises données, les conséquences peuvent aller de simples désagréments, comme l’envoi de documents fiscaux à la mauvaise adresse, à des risques graves, tels que la non-conformité réglementaire, l’atteinte à la réputation et les pertes financières.

L’un des dangers propres aux mauvaises données réside dans leur caractère furtif. Contrairement à une panne système, les effets des mauvaises données peuvent passer inaperçus jusqu’à ce que des dommages importants aient été causés. Les entreprises peuvent fonctionner pendant des années avec de mauvaises données sans le savoir. Par exemple, une équipe commerciale remarquerait immédiatement si son tableau de bord Salesforce ne se chargeait pas, mais il lui faudrait beaucoup plus de temps pour se rendre compte que les données affichées sont erronées.

Alors que les volumes de big data explosent et que les dirigeants s’appuient de plus en plus sur les données pour alimenter l’intelligence artificielle (IA) et la prise de décision, il est plus important que jamais de maximiser la qualité des données. Grâce à une gouvernance des données, à des pratiques de gestion de la qualité des données et à des outils d’observabilité des données solides, les organisations peuvent contribuer à faire en sorte que leurs actifs de données alimentent leur croissance, au lieu de devenir des passifs invisibles.

Types de mauvaises données

Les mauvaises données peuvent être globalement classées selon les principales dimensions de la qualité des données :

  • Données inexactes
  • Données incomplètes
  • Données incohérentes
  • Données obsolètes
  • Données dupliquées
  • Données non valides
  • Données biaisées

Données inexactes

L’exactitude des données mesure à quel degré de fidélité les données reflètent des événements et des valeurs réels. Lorsqu’elles sont inexactes, les données contiennent des erreurs et ne sont pas fiables pour la prise de décision. Par exemple, des données clients inexactes (telles que des points de données relatifs aux prix) peuvent fausser la compréhension qu’une entreprise a de son public et entraîner des actions mal orientées qui dégradent les taux de satisfaction client.

Données incomplètes

Les données incomplètes sont des données auxquelles il manque des enregistrements et des valeurs nécessaires, créant des lacunes qui affectent le traitement et l’analyse des données. Un écart important peut même introduire un biais, car les résultats de l’analyse peuvent ne pas être représentatifs du véritable jeu de données. Par exemple, si la plupart des entrées d’une base de données client ne comportent pas d’informations de contact, les équipes commerciales manqueront des occasions d’interagir avec leurs clients.

Données incohérentes

Les données incohérentes manquent de normalisation et sont largement incompatibles entre différents jeux de données et systèmes. Les divergences dans les formats de date, les conventions de nommage et les unités de mesure peuvent semer la confusion chez les utilisateurs, créer des silos de données au sein de plateformes spécifiques et introduire des erreurs dans le reporting ou l’analyse.

Données obsolètes

Les données obsolètes sont des informations qui ne sont plus à jour, ce qui peut amener les décideurs à utiliser des informations non pertinentes qui ne représentent pas les conditions réelles. La fraîcheur des données est un indicateur qui définit à quelle fréquence les informations d’une base de données sont mises à jour. Des intervalles particulièrement longs entre les mises à jour peuvent entraîner l’obsolescence des données.

Données dupliquées

Les données dupliquées, ou données redondantes, désignent des entrées répétées dans un ensemble de données ; une donnée unique ne doit apparaître qu’une seule fois. Elles peuvent fausser l’analyse en surreprésentant certaines valeurs ou tendances. Il est important de noter qu’il existe des cas d’utilisation où la redondance intentionnelle des données dans la conception des bases de données permet de garantir une haute disponibilité, l’intégrité des données et leur cohérence.

Données non valides

Les données non valides sont des informations qui ne respectent pas les règles système ou métier, (telles que les plages de valeurs autorisées, les formats requis et les types de données définis). Il peut s’agir, par exemple, de données contenant un caractère spécial non pris en charge ou de numéros de téléphone formatés sans les traits d’union requis.

Données biaisées

Bien que le biais ne soit pas en soi une dimension de la qualité des données, il constitue un facteur important que les parties prenantes doivent prendre en compte, car il influence plusieurs de ces dimensions. Les données biaisées sont déformées ou non représentatives des événements, populations et conditions réels. Elles peuvent entraîner des résultats injustes, inexacts et peu fiables, et, lorsqu’elles sont utilisées dans des systèmes de machine learning (ML) et d’IA, avoir des conséquences graves pour les individus, les entreprises et la société.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Quel est l’impact des mauvaises données ?

Les mauvaises données sont l’antithèse des bonnes données. Alors que des données de haute qualité favorisent la croissance et l’innovation, des données de mauvaise qualité ralentissent les progrès.

Les entreprises s’appuient sur les données pour prendre des décisions éclairées, obtenir des informations exploitables et réaliser des prévisions pour leurs opérations internes comme pour leurs expériences client. Les décisions fondées sur de mauvaises données peuvent entraîner des occasions manquées, des inefficacités opérationnelles et une réputation ternie. Dans des secteurs comme la finance ou la santé, où les données contribuent à éclairer des décisions à forts enjeux, de mauvaises données peuvent avoir des conséquences graves, voire catastrophiques.

Prenons l’exemple d’une étude clinique contenant des données patients incohérentes. Les chercheurs auraient du mal à comparer les résultats, ce qui pourrait retarder le développement de traitements potentiels. Dans la finance, des données inexactes ou manquantes peuvent entraîner des coûts de conformité élevés. Des rapports financiers inexacts peuvent conduire à des violations de réglementations comme la loi Sarbanes-Oxley (SOX), qui peuvent entraîner des amendes allant jusqu’à 1 million de dollars et jusqu’à 10 ans d’emprisonnement.

Les risques liés aux mauvaises données s’accentuent dans le contexte de l’intelligence artificielle. Lorsque des modèles d’IA ou de ML sont entraînés sur des données inexactes, incohérentes ou biaisées, leurs résultats reflètent ces erreurs. Pour maximiser leurs investissements dans l’IA et le ML, les organisations doivent s’assurer que leurs données sont adaptées à l’IA.

Unity Technologies est un exemple parlant des conséquences des mauvaises données dans l’IA et le ML. En 2022, l’algorithme de placement publicitaire de cette entreprise de jeux vidéo a ingéré de mauvaises données provenant d’un grand client. Les performances de l’algorithme se sont dégradées au point qu’il a fallu le reconstruire. L’incident a contribué à une chute de 37 % de l’action Unity et à un impact estimé à 110 millions de dollars sur l’entreprise.

À l’inverse, de bonnes données exactes peuvent constituer un atout majeur pour les initiatives d’IA. Les recherches de l’IBM Institute for Business Value ont montré que les entreprises disposant de données fiables obtenaient un retour sur investissement près de deux fois supérieur grâce à leurs capacités d’IA. Conclusion : les bonnes données sont une priorité non négociable pour toute stratégie fondée sur l’IA ou les données.

Quelles sont les causes des mauvaises données ?

Il n’existe pas de cause racine aux mauvaises données. Elles peuvent provenir de la technologie, des processus ou des personnes, et résultent généralement d’une combinaison de plusieurs facteurs. Parmi les causes courantes d’une mauvaise qualité des données, on trouve notamment :

  • Défaillances système
  • Dégradation des données
  • Collecte de données peu fiable
  • Faible gouvernance des données
  • Erreur humaine
  • Ruptures d’intégration ou de migration des données
Défaillances système

Les architectures de données mal conçues peuvent entraîner des silos de données, des performances lentes et des bugs logiciels qui dégradent la cohérence et la fiabilité des données. Lorsque les systèmes tombent en panne, les fichiers peuvent être corrompus ou rester incomplets, ce qui se traduit par des valeurs manquantes et des inexactitudes dans les processus en aval.

Dégradation des données

De nombreux types de données métier (comme les indicateurs de comportement des consommateurs) sont susceptibles de se dégrader s’ils ne sont pas mis à jour régulièrement. Lorsque les bases de données sont obsolètes, les informations ou décisions qui en découlent sont elles-mêmes dépassées, et probablement inexactes.

Collecte de données peu fiable

Les mauvaises données peuvent apparaître dès la collecte, et pas seulement en raison de sources ou de fournisseurs de données de mauvaise qualité. Les biais, les méthodes incohérentes, les outils défectueux ou les mesures inexactes lors de la saisie et du traitement des données peuvent tous compromettre la qualité des données.

Faible gouvernance des données

En tant que discipline, la gouvernance des données définit et met en œuvre des politiques, des normes et des procédures pour l’ensemble du cycle de vie des données. Lorsque ces pratiques sont appliquées de manière incohérente ou sans responsabilisation claire, la qualité des données se dégrade rapidement.

Erreur humaine

L’erreur humaine est souvent à l’origine de données erronées. Les fautes de frappe lors de la saisie manuelle, le codage incohérent des données, les biais ou les mauvaises interprétations peuvent tous entraîner des inexactitudes. L’erreur humaine est aggravée par les contraintes de temps, une formation insuffisante et des systèmes mal conçus.

Ruptures d’intégration ou de migration

La migration ou l’intégration des données sans processus, planification et technologies appropriés peut entraîner des pertes de données, des incohérences et des inexactitudes. Ces problèmes découlent souvent de formats et de structures de données incompatibles ou de dépendances non détectées.

Comment prévenir les mauvaises données

Dans un monde parfait, les mauvaises données seraient détectées à la source et n’atteindraient jamais les systèmes en aval ni les workflows d’analyse de données. En réalité, toutefois, la qualité des données peut se dégrader à n’importe quel stade de leur cycle de vie, et pour de nombreuses raisons différentes.

La prévention des mauvaises données à toutes les étapes nécessite une stratégie globale qui traite les risques à chaque phase. Cette stratégie peut intégrer les pratiques suivantes :

  • Gouvernance et stratégie
  • Surveillance et visibilité
  • Nettoyage et résolution
  • Compétences et maîtrise des données

Gouvernance et stratégie

La mise en place d’une gouvernance des données solide constitue une première étape essentielle pour prévenir les mauvaises données. Elle définit et applique les politiques, normes et procédures nécessaires au maintien de données exactes et de haute qualité tout au long de leur cycle de vie. Des cadres de gouvernance robustes peuvent aider les entreprises à identifier et corriger les inexactitudes avant qu’elles n’influencent la prise de décision et l’efficacité opérationnelle.

Une gouvernance des données efficace doit compléter et renforcer la stratégie de données globale de l’entreprise. Elle fonctionne généralement en parallèle avec d’autres disciplines, telles que la gestion des données, la sécurité des données et l’architecture des données, afin de préserver la cohérence et la fiabilité des données.

Surveillance et visibilité

On ne peut pas corriger de mauvaises données si l’on ignore leur existence. Les entreprises peuvent utiliser plusieurs processus pour obtenir de la visibilité sur l’état de leurs données et en surveiller la santé en continu :

  • Traçabilité des données : ces outils offrent une vision claire de la manière dont les données (ainsi que leurs métadonnées) circulent et évoluent tout au long de leur cycle de vie, depuis leur origine jusqu’à leur destination finale. La visibilité sur la traçabilité des données facilite l’analyse des causes profondes et la conformité réglementaire.

  • Audits des données : l’examen et l’analyse réguliers des données d’entreprise permettent de dresser une cartographie visuelle de l’environnement de données. Les audits aident les organisations à découvrir, classer et surveiller leurs données afin de mettre au jour les risques, les inexactitudes et les incohérences.

  • Profilage des données : le processus de profilage des données analyse les données afin d’obtenir des informations sur leur structure et leur qualité, pour permettre aux équipes de planifier la résolution. Il est généralement réalisé par des ingénieurs de données, qui utilisent diverses règles métier et différents algorithmes analytiques.

  • Observabilité des données : au-delà de la surveillance traditionnelle, les outils d’observabilité des données s’appuient sur l’automatisation et l’intelligence pour aider à identifier, diagnostiquer et résoudre les problèmes de données en temps quasi réel, avant qu’ils n’aient l’occasion de se propager aux opérations métier.

Nettoyage et résolution

Une fois les erreurs de données et leurs causes profondes identifiées, les mauvaises données doivent être corrigées. Les processus de nettoyage des données visent à traiter les problèmes courants de qualité des données, tels que les enregistrements dupliqués, les valeurs manquantes, les incohérences, les erreurs de syntaxe, les données non pertinentes et les erreurs structurelles. Les techniques courantes incluent la normalisation, le traitement des données aberrantes et des valeurs manquantes, la déduplication et la validation des données.

Les équipes de données utilisent de plus en plus l’IA pour automatiser et optimiser plusieurs de ces étapes, en particulier des tâches comme la normalisation et la déduplication.

Compétences et maîtrise des données

Les entreprises qui maîtrisent les données possèdent les compétences nécessaires pour lire, comprendre, utiliser les données et communiquer à partir de ces dernières afin d’améliorer la prise de décision. La capacité à évaluer les données de manière critique améliore également leur qualité globale : les employés disposant même de compétences élémentaires en données sont mieux équipés pour repérer les biais, les incohérences, les inexactitudes ou les valeurs manquantes.

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Rendu 3D d'une spirale de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard
Solutions connexes
IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets
IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

  1. Découvrir les solutions de gestion des données
  2. Découvrir watsonx.data