Les données sont au cœur de l’entreprise moderne. Elles façonnent les stratégies d’entreprise, éclairent la prise de décision et sous-tendent tout, des modèles de tarification à l’automatisation. Alors que les entreprises s’appuient de plus en plus sur les mégadonnées et l’analytique en temps réel pour alimenter leurs initiatives d’intelligence artificielle (IA), il est devenu impossible d’ignorer l’impact d’une mauvaise qualité des données.
Un rapport publié en 2025 par l’IBM Institute for Business Value (IBV) a révélé que 43 % des directeurs des opérations considèrent les problèmes de qualité des données comme leur principale priorité en matière de données.1 Et pour cause : plus d’un quart des entreprises estiment perdre plus de 5 millions de dollars par an en raison de la mauvaise qualité des données, et 7 % signalent des pertes de 25 millions de dollars ou plus.
Pourtant, la mauvaise qualité des données passe souvent inaperçue, car son impact apparaît rarement au moment de la défaillance. Au contraire, il se manifeste en aval sous forme de perte de revenus, d’inefficacités, de risques de conformité et d’opportunités manquées. C’est ce délai qui rend la mauvaise qualité des données particulièrement dangereuse. Il influence progressivement les jeux de données et les systèmes, façonnant les décisions stratégiques bien avant que le problème et ses causes racines ne soient identifiés.
Cet effet insidieux devient encore plus important dans l’environnement actuel piloté par l’IA, en particulier avec l’essor de l’IA générative. D’autres recherches menées par IBM IBV montrent que la qualité des données et la gouvernance figurent parmi les principaux défis freinant l’adoption de l’IA. Les préoccupations concernant la précision des données ou les biais constituent un obstacle majeur à la montée à l’échelle des initiatives d’IA, rapportées par près de la moitié (45 %) des dirigeants d’entreprise.
La raison est simple : les systèmes d’IA héritent et amplifient les problèmes de qualité des données. Lorsque ces données sont incohérentes, incomplètes, biaisées ou obsolètes, les modèles et les agents construits à partir de ces données sont moins précis et sujets à des problèmes de diffusion à l’échelle. En revanche, les entreprises disposant de cadres matures de qualité des données et le cadre des gouvernances sont plus susceptibles de déplacer les cas d’utilisation de l’IA du pilote à la production, maintenant ainsi la valeur au fil du temps.
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
On parle de données de mauvaise qualité lorsque les jeux de données ne répondent pas aux exigences d’une opération commerciale spécifique. Même des données qui semblent exactes et complètes peuvent être utilisées comme des « mauvaises données » si elles ne conviennent pas à leur usage, c’est-à-dire qu’elles ne supportent pas le cas d’utilisation, le workflow ou le résultat de l’IA qu’elles sont censées permettre.
Cette défaillance peut découler de divers problèmes, notamment des données inexactes, des champs de données incomplets, des formats de données incohérents ou des points de données manquants. Même de petites erreurs humaines lors de la saisie d’informations de contact, qu’il s’agisse d’un numéro de téléphone mal saisi ou d’une adresse non valide, peuvent se propager en amont. Ces divergences peuvent entraîner des enregistrements en double ou des données manquantes lors des premières phases de collecte et d’intégration des données, affaiblissant l’analyse des données, réduisant les performances de l’IA et, en fin de compte, affectant les résultats commerciaux.
Souvent, les problèmes de qualité des données sont décrits à l’aide de dimensions telles que l’exactitude, l’exhaustivité, l’actualité et la cohérence des données. Ces dimensions sont importantes, mais elles n’expliquent pas tout. S’appuyer uniquement sur elles revient à dépendre d’une échelle légèrement mal étalonnée : chaque lecture semble raisonnable, mais les petites erreurs s’accumulent et conduisent à de mauvaises décisions.
Les indicateurs courants de données médiocres ou de mauvaise qualité incluent des incohérences entre les sources de données, des données clients manquantes, des données obsolètes ou des jeux de données qui ne peuvent pas être retracés jusqu’aux propriétaires de données critiques. À mesure que le volume de données augmente, ces problèmes s’additionnent : les données de haute qualité s’érodent, les initiatives de gestion des données de l’entreprise deviennent inefficaces et les performances de l’IA se dégradent.
Les entreprises qui cherchent à optimiser l’analyse des données, l’automatisation et l’IA font face à des défis qui vont bien au-delà des erreurs de données traditionnelles. Les préoccupations d’hier, telles que les tableaux de bord biaisés et les systèmes cloisonnés, sont toujours d’actualité. Mais aujourd’hui, l’essor de l’IA agentique et des workflows apporte un nouveau niveau de risque. Ces systèmes s’appuient sur des données fiables et bien gérées, non seulement pour la formation, mais aussi pour chaque interaction : ancrer les réponses, déclencher des actions et prendre des décisions éclairées dans l’ensemble de l’entreprise.
Alors que la plupart des entreprises ne forment pas leurs propres grands modèles de langage (LLM), une enquête de PwC montre que 79 % des personnes interrogées adoptent des agents IA sous une forme ou une autre. Ces agents peuvent aller de simples copilotes à des applications avancées de génération augmentée de récupération (RAG). Dans ces environnements, les problèmes de qualité des données peuvent provoquer des comportements imprévisibles de l’IA, comme des sorties erronées ou provoquer une dérive des modèles au fil du temps.
Parallèlement à l’adoption, les dépenses en IA s’accélèrent et devraient dépasser les 2 000 milliards de dollars en 2026, avec une croissance de 37 % d’un an sur l’autre, selon Gartner.2 Lorsque l’investissement dans l’IA augmente, le coût lié à la mauvaise qualité des données augmente également, ce qui signifie que la marge d’erreur se réduit.
Au-delà des risques pour l’IA, les défaillances en matière de qualité des données continuent de créer des défis tels que :
Des tableaux de bord et des outils de Business Intelligence sont utilisés pour guider les décisions stratégiques à enjeux élevés. Lorsque des données inexactes ou incomplètes sous-tendent ces outils de qualité des données, les dirigeants risquent de mal évaluer les performances, de fixer des prix inadaptés pour leurs offres ou de mener des initiatives fondées sur des hypothèses erronées.
Les modèles d’automatisation et de machine learning dépendent de jeux de données cohérents et validés. Ils reflètent et amplifient également leurs défauts. Lorsque des données de mauvaise qualité entrent dans les workflows de machine learning, leurs inexactitudes, biais et incohérences peuvent se propager dans les systèmes en aval, ce qui diminue la valeur métier et l’efficacité opérationnelle.
L’exposition répétée à des données inexactes ou incohérentes érode la confiance des parties prenantes. Les ingénieurs de données et les équipes chargés des données passent plus de temps à réconcilier des jeux de données piégés dans des silos qu’à faire avancer des initiatives. Les utilisateurs professionnels commencent à remettre en question les informations et l’expérience client s’en ressent inévitablement.
Dans les secteurs sensibles tels que la santé, ou ceux régis par des réglementations telles que le Règlement général sur la protection des données (RGPD), des données personnelles inexactes ou mal gérées présentent des risques de conformité. Une mauvaise gouvernance des données et des contrôles de validation des données insuffisants peuvent exposer les entreprises à des audits, à une atteinte à leur réputation et à de lourdes amendes.
Malgré son ampleur, quantifier le coût d’une mauvaise qualité des données reste difficile, car ses effets sont répartis entre les systèmes, les équipes et le temps. Les problèmes se manifestent souvent sous la forme d’effets secondaires : retards dans les workflows, réduction de l’efficacité opérationnelle ou mauvais résultats commerciaux liés à une mauvaise compréhension et à la dégradation des données.
Ces inefficacités sont rarement prises en compte sous la forme d’un indicateur unique. Ce sont plutôt des indicateurs de coût, chacun reflétant le temps passé, la valeur perdue ou les opportunités manquées. La diffusion de l’impact permet de sous-estimer facilement les pertes financières qui en résultent.
Au lieu de calculer un montant précis, de nombreuses entreprises effectuent des audits de données et suivent plusieurs indicateurs. Ces enquêtes révèlent à quelle fréquence les problèmes de qualité des données surviennent et combien de temps ils persistent. Parmi les indicateurs les plus courants, on trouve :
Ces deux incidents récents et largement cités illustrent comment la mauvaise qualité des données entraîne des dommages mesurables pour les entreprises.
Début 2022, Unity Technologies a révélé que l’ingestion de données inexactes avait corrompu les jeux de données utilisés pour entraîner les modèles de machine learning liés à la publicité. Des sources de données défectueuses ont introduit des erreurs dans les pipelines de données qui prennent en charge les algorithmes de ciblage prédictif et d’enchères. Unity a déclaré avoir perdu environ 110 millions de dollars de revenus en raison de modèles sous-performants, d’initiatives retardées et du coût du réentraînement des jeux de données affectés.
En 2022, Equifax a attribué des scores de crédit inexacts à des millions de consommateurs en raison de valeurs de données incorrectes générées par un système d’héritage. Dans certains cas, les erreurs étaient suffisamment importantes pour influencer les décisions de prêt, exposant à la fois consommateurs et prêteurs à des risques financiers.
Au-delà de l’atteinte à la réputation de l’entreprise, les retombées se sont traduites par une surveillance réglementaire, une action collective et un règlement de 725 000 USD, l’une des nombreuses pénalités auxquelles l’entreprise a dû faire face pour des manquements en matière d’information sur le crédit et de traitement des litiges.
En 2018, Samsung Securities a traité une saisie de données non valide en tentant d’émettre des dividendes aux employés, déclenchant par erreur l’émission de milliards d’actions en double. Une validation insuffisante et des contrôles humains dans la boucle ont permis aux valeurs de données erronées d’atteindre les systèmes de négociation en aval.
Bien que le problème ait été identifié en quelques minutes, les conséquences ont été graves : perturbations du marché, sanctions réglementaires, démissions de dirigeants et une perte de valeur boursière estimée à plusieurs centaines de millions de dollars.
Les approches traditionnelles, telles que l’examen de la qualité des données exclusivement au sein d’un entrepôt de données, ne sont plus évolutives. Les systèmes d’IA actuels interagissent avec les données en continu, et non de façon épisodique, beaucoup fonctionnant sur des entrées de type streaming ou pilotées par des événements.
Cette évolution signifie que les entreprises doivent « se positionner en amont » en matière d’intégrité des données : en mettant l’accent sur la détection, la prévention et la résolution au moment où les données sont créées, plutôt que d’attendre que les problèmes apparaissent en aval.
Disposer d’un programme solide de gestion de la qualité des données peut aider les entreprises à éviter les conséquences d’une mauvaise qualité des données. Cela peut également créer un avantage concurrentiel à une époque où l’IA et les systèmes d’agence dépendent de données fiables en temps réel.
Pour y parvenir, les entreprises ont besoin de plus que des correctifs isolés. Elles ont plutôt besoin d’une approche évolutive et reproductible de la gestion de la qualité des données. En considérant la qualité des données comme un modèle opérationnel plutôt que comme une liste de contrôle, les entreprises peuvent remodeler la façon dont elles gèrent la propriété, le contrôle et la responsabilité tout au long du cycle de vie des données.
Bien que non exhaustives, les pratiques modernes pour prévenir les problèmes de qualité des données incluent :
Nous vivons une époque où l’on demande aux systèmes d’IA d’agir plutôt que de recommander. Cette évolution met la pression sur les entreprises pour qu’elles améliorent la qualité des données dès le départ, sous peine de risquer des problèmes qui s’aggravent au fil des processus métier. À l’avenir, elles devront aller au-delà des correctifs opérationnels et considérer la qualité des données comme une condition préalable au succès de l’IA, et pas simplement comme une garantie contre les risques.
Déployez une IA de confiance grâce à une surveillance continue des modèles, une gestion proactive des risques et une gouvernance rigoureuse tout au long du cycle de vie de l’IA.
Reprenez le contrôle de vos données grâce à des outils de gouvernance qui améliorent la qualité, garantissent la conformité et favorisent des analyses et des initiatives d’IA fiables.
Mettez en place des pratiques d’IA responsable avec l’appui d’experts pour maîtriser les risques, répondre aux exigences réglementaires et déployer une IA de confiance à grande échelle.
1 « The 2025 CDO Study »: The AI multiplier effect. « IBM Institute for Business Value, 12 novembre 2025
2 « Gartner Says Worldwide AI Spending Will Total USD 1.5 Trillion in 2025. » Gartner, 17 septembre 2025