Pourquoi la qualité des données d’IA est essentielle au succès de l’IA

By Alexandra Jonker , Judith Aquino

Qualité des données d’IA, définition

La qualité des données d’intelligence artificielle (IA) correspond au degré d’exactitude, d’exhaustivité, de fiabilité et d’adéquation des données tout au long du cycle de vie de l’IA, notamment l’entraînement, la validation et le déploiement.

Dans les systèmes d’IA, la qualité des données englobe également des facteurs moins mis en avant dans les dimensions traditionnelles de qualité des données comme la représentativité, les biais, la précision des étiquettes et les variations non pertinentes (bruit), qui peuvent influencer le comportement du modèle.

On ne soulignera jamais assez l’importance de la qualité des données dans le domaine de l’IA : la mauvaise qualité des données est l’une des principales raisons d’échec des projets en matière d’IA. Les modèles d’IA entraînés sur des données erronées, biaisées ou incomplètes produiront des sorties peu fiables, quelle que soit la complexité des architectures. Comme le dit l’adage, « déchets en entrée, déchets en sortie. »

Les données de qualité, en revanche, constituent la base d’une IA fiable et efficace. À mesure que les systèmes d’IA deviennent plus complexes et évolutifs, une gestion continue et robuste de la qualité des données déterminera si ces systèmes peuvent fonctionner de manière fiable, s’adapter à des environnements changeants et permettre des décisions éclairées.

Les outils avancés de qualité des données rationalisent la gestion de la qualité des données d’IA en intégrant la surveillance et la validation continues directement dans les pipelines de données et de modèles. Outre l’automatisation basée sur des règles, l’IA peut être utilisée pour améliorer la qualité des données d’IA en détectant des anomalies subtiles, en hiérarchisant les problèmes en fonction de l’impact du modèle en aval et bien plus encore. En automatisant les contrôles d’exactitude, de cohérence, d’exhaustivité et d’autres dimensions de qualité des données, ces outils permettent aux équipes de détecter rapidement les problèmes et d’assurer la qualité des données à mesure que les systèmes d’IA évoluent.

La qualité de l’IA dépend de celle de ses données

Les entreprises du monde entier continuent d’investir massivement dans l’IA. Selon Gartner, les dépenses mondiales en IA devraient dépasser les 2 000 milliards de dollars en 2026, soit une croissance de 37 % d’une année sur l’autre.¹ Cependant, cette expansion rapide masque le fait que de nombreux projets d’IA peinent à apporter une valeur durable.

Selon l’étude menée auprès de PDG en 2025 par l’IBM Institute for Business Value, seuls 16 % des projets d’IA ont réussi à se développer à l’échelle de l’entreprise,² tandis que l’étude NANDA du MIT³ indique que jusqu’à 95 % des projets pilotes d’IA générative échouent à progresser au-delà de l’expérimentation.

Les études indiquent que la qualité et la gouvernance des données d’IA sont des éléments clés de différenciation au sein de l’écosystème d’IA. Selon une autre étude de l’BV, 68 % des entreprises axées sur l’IA font état de cadres de données et de gouvernance matures et bien établis, contre seulement 32 % pour les autres entreprises.⁴

Comme le soulignent les auteurs de l’étude, « bien que moins tape-à-l’œil que les algorithmes de pointe ou les cas d’utilisation ambitieux, ce socle de données structurées, accessibles et de qualité représente une condition préalable essentielle au succès durable de l’IA. »

Cette base est importante car les modèles de machine learning, qui sont au cœur de nombreux systèmes d’IA, « apprennent » directement à partir des jeux de données qui leur sont fournis. Lorsque ces données déforment la réalité à cause d’erreurs, de lacunes, d’informations obsolètes, de silos ou de biais systématiques, les modèles héritent non seulement de ces faiblesses, mais peuvent également amplifier les problèmes de données à l’échelle.

Par exemple, dans les systèmes d’IA générative, tels que les grands modèles de langage (LLM) utilisés pour le traitement automatique du langage naturel, des problèmes de qualité des données peuvent apparaître sous forme de texte présentant des inexactitudes factuelles ou des sorties de type image biaisées. La mauvaise qualité des données peut également entraîner une performance inégale, en particulier dans les cas extrêmes tels que les entrées inhabituelles et les scénarios sous-représentés.

Même un faible pourcentage de données de mauvaise qualité peut avoir des effets disproportionnés. Quelques mauvais résultats peuvent saper la prise de décision et la confiance dans la technologie, amenant les cadres à conclure que l’outil d’IA est défectueux, alors que la cause racine réside dans la qualité des données qui l’alimentent.

Au-delà des résultats techniques, une mauvaise qualité des données d’IA comporte des implications juridiques et éthiques, notamment des risques pesant sur la confidentialité des données et l’utilisation responsable des données. Les modèles entraînés sur des données mal gouvernées peuvent perpétuer la discrimination dans des domaines tels que l’embauche, les prêts, la santé et les services publics. Parallèlement, des réglementations telles que la loi européenne sur l’intelligence artificielle et un nombre croissant de lois américaines étatiques sur l’IA responsabilisent de plus en plus les entreprises pour ce qui est de la protection des données, ainsi que de la qualité, de la représentativité et de la provenance des données d’entraînement.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

En quoi la qualité des données d’IA diffère-t-elle de la qualité des données traditionnelles ?

La mesure de la qualité des données d’IA repose majoritairement sur les dimensions que suivent également les indicateurs de qualité des données traditionnels. La différence réside dans la manière dont les dimensions de qualité des données sont recontextualisées dans les scénarios d’IA : elles sont évaluées selon leur impact sur l’entraînement des modèles, la généralisation des modèles, l’équité, le risque opérationnel, en particulier lorsque les modèles sont développés et déployés dans différents environnements de données.

Lorsqu’elle est appliquée aux systèmes d’IA, la qualité des données est évaluée à l’aide de versions adaptées des dimensions de qualité des données suivantes :

Précision des données
Complétude
Intégrité des données
Cohérence
Rapidité
Pertinence

Exactitude des données

Dans les contextes traditionnels, l’exactitude signifie que les valeurs des données représentent correctement les entités ou événements réels, ce qui est souvent vérifié par des contrôles de base et des seuils prédéfinis. Dans les systèmes d’IA, l’exactitude dépend également de processus robustes de validation des données, qui évaluent comment le bruit des étiquettes (échantillons d’entraînement étiquetés incorrectement ou de manière ambiguë), l’erreur de mesure et les variables proxy affectent l’entraînement du modèle.

En savoir plus sur la précision de l’IA

Exhaustivité

En plus de vérifier si des champs ou des enregistrements obligatoires sont manquants au titre de l’exhaustivité, pour la qualité des données d’IA, il s’agit de s’assurer que les données couvrent suffisamment les cas que le modèle est censé rencontrer tels que les cas extrêmes, les événements rares et les populations minoritaires. Les lacunes en matière de couverture peuvent donner lieu à des modèles fragiles, qui fonctionnent bien en moyenne, mais qui échouent dans des scénarios sous-représentés, ce qui augmente les risques opérationnels et d’atteinte au principe d’équité.

Intégrité des données

Traditionnellement, l’intégrité des données consiste à s’assurer que les données respectent les règles de base (par exemple, le bon schéma et une connexion correcte entre les systèmes). Pour l’IA, il s’agit également de savoir exactement d’où proviennent les données, et d’être en mesure de recréer la façon dont elles ont été préparées et utilisées tout au long du pipeline de données.

Les équipes doivent être en mesure de retracer les données jusqu’à leur source et de conserver un enregistrement clair de chaque modification qui y a été apportée. Les actifs importants, comme les données d’entraînement et les entrées des modèles, doivent être protégés afin de détecter et d’examiner des problèmes tels que les dommages accidentels, les doublons ou les modifications non autorisées.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Accéder à l’épisode

Cohérence

Au-delà de la cohérence des formats et des définitions, mesurer la qualité des données d’IA consiste à examiner si les données sont collectées, traitées et augmentées de manière cohérente. Cette vérification permet de s’assurer que les modifications apportées aux pipelines ou aux sources n’introduisent pas de distorsion, de biais ni de risque pour les modèles en aval.

Actualité

L’actualité classique se concentre sur le degré d’actualité des données au moment de leur collecte. Dans les systèmes d’IA, l’actualité exige également de surveiller en quoi les données nouvelles ou en temps réel diffèrent des données d’entraînement, car la dérive des données ou des concepts peut dégrader la performance du modèle.

Pertinence

Au lieu de se demander si les données sont globalement utiles ou liées au domaine du problème, l’évaluation de la pertinence des données d’IA consiste à déterminer si l’ensemble des caractéristiques et échantillons fournissent des informations qui soutiennent la fonction prévue du système. Cette mesure consiste notamment à examiner si les données améliorent la performance prédictive, assurent la robustesse dans différentes conditions, réduisent la sensibilité au bruit ou aux corrélations parasites et facilitent l’interprétabilité ou le diagnostic en aval.

Comment obtenir des données d’IA de qualité

La mesure de la qualité des données d’IA permet d’établir une base de référence initiale, mais son maintien nécessite une surveillance continue de la qualité des données à mesure que ces dernières, les schéma d’utilisation et les conditions de fonctionnement évoluent. Quatre pratiques fondamentales permettent d’améliorer et de maintenir la qualité des données d’IA :

Profilage et exploration des données tôt dans le cycle de vie
L’observabilité des données comme base
Contrôles de qualité des données utilisant l’IA
Fermer la boucle par résolution et feedback

Profilage et exploration des données tôt dans le cycle de vie

Le profilage aide les équipes à comprendre les sources de données sous-jacentes, la manière dont les données ont été collectées, structurées et transformées, et dont elles circulent dans les pipelines via la traçabilité des données. Ce processus inclut l’identification des valeurs aberrantes, la vérification des valeurs manquantes et l’analyse des relations entre données structurées et non structurées telles que le texte ou les images.

Ces pratiques permettent d’établir une base solide de données exactes pour l’entraînement des modèles. Elles doivent intervenir avant le développement du modèle et être intégrées dans les workflows de préparation des données, en exploitant à la fois les données brutes et les métadonnées associées.

L’observabilité des données comme base

L’observabilité des données offre la visibilité nécessaire pour permettre une surveillance continue et des contrôles efficaces à grande échelle dans les workflows de production. En surveillant les pipelines de données, l’observabilité permet aux équipes de voir comment les données évoluent dans le temps, de remonter aux sources des problèmes de qualité et de mettre en corrélation modification des données et résultats des modèles en aval.

Cette visibilité de bout en bout est critique pour maintenir la qualité des données à mesure que les systèmes d’IA gagnent en complexité, en volume et en évolutivité.

Contrôles de qualité des données utilisant l’IA

L’IA elle-même peut être utilisée pour améliorer la qualité, la fiabilité et la gouvernance des données qui alimentent ses modèles. Les solutions de qualité des données alimentées par l’IA, intégrant automatisation et agents IA, peuvent profiler en continu de nouveaux jeux de données volumineux et complexes, au fur et à mesure qu’ils se déplacent à travers les pipelines de données.

De plus, elles peuvent détecter les anomalies pour identifier les incohérences, les points de données hors normes et les changements de distribution, et appliquer la déduplication pour détecter et éliminer les doublons, ainsi que les problèmes de qualité des données associés.

Fermer la boucle par résolution et feedback

Maintenir la qualité des données d’IA nécessite également des boucles de rétroaction qui relient les signaux de surveillance à l’action. Les informations issues de la surveillance de la qualité des données et de l’observabilité informent les étapes de résolution telles qu’un nouvel entraînement des modèles, la mise à jour des directives d’étiquetage, l’ajustement de la logique de prétraitement ou la collecte de données supplémentaires dans les zones sous-représentées.

Au fil du temps, ce feedback continu permet aux équipes d’optimiser leurs pratiques en matière de qualité des données et la performance des modèles à mesure que le système d’IA évolue.

Auteurs

Alexandra Jonker

Staff Editor

IBM Think

Judith Aquino

Staff Writer

IBM Think

Rendu 3D d'une spirale de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Consultez le guide du responsable des données pour découvrir comment préparer les données de votre organisation à l'IA.

Ressources

Rendu 3D de plusieurs icônes alignées, comme un microphone et une caméra

Les agents d’IA s'appuient sur des données. Les vôtres sont-elles prêtes ?

Vos données sont votre avantage concurrentiel. Découvrez comment les exploiter en toute sécurité et générer un ROI mesurable grâce à l’IA dans ce court webinaire.

La gestion des données expliquée

Techsplainers by IBM présente l’essentiel des données pour l’IA, des concepts clés aux cas d’utilisation concrets. Des épisodes clairs et rapides vous permettent d’apprendre rapidement les principes fondamentaux.

Rendu 3D de plusieurs icônes alignées comme un bouton de volume et un presse-papiers

Unifiez vos données pour dimensionner votre IA

Découvrez pourquoi la mise en place de données adaptées à l’IA commence souvent par un accès efficace aux données structurées et non structurées, ainsi que les défis auxquels peuvent être confrontés les responsables des données.

Des frais juridiques aux informations stratégiques

Découvrez comment un agent juridique alimenté par l’IA aide à accélérer la prise de décision, à réduire le travail manuel et à améliorer la conformité.

Deux hommes qui discutent dans un podcast

AI Academy : Élaborer une stratégie de données pour l’IA d’entreprise

Dans cet épisode, Cathy Reese explique pourquoi les entreprises doivent aujourd’hui se doter d’une stratégie de données adaptée à l’IA avancée, en s’appuyant sur leurs ressources de données les plus qualitatives.

Rendu 3D de plusieurs icônes alignées telles qu’un appareil photo et des avions en papier

Le data lakehouse hybride et ouvert pour l'IA

Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.

Rapport sur le coût d’une violation de données 2025

Les coûts liés aux violations de données ont atteint un nouveau sommet. Obtenez des informations actualisées sur les menaces de cybersécurité et leur incidence financière sur les entreprises.

Rendu 3D de deux lignes de plusieurs icônes telles qu’un appareil photo, un bouton de volume et un presse-papiers.

Guide du responsable des données adaptées à l’IA

Comprenez les mesures concrètes que les responsables des données peuvent prendre pour surmonter les défis en matière de données, établir les bases d'un socle de données de confiance et préparer les données de votre entreprise pour l’IA.

Rendu 3D de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard

Comment la direction transforme les informations en impact

Découvrez les retours de 1 700 CDO dans ce rapport intersectoriel dédié aux responsables de données.

Solutions connexes

IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets

IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data

Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique

Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Notes de bas de page

¹ Gartner Says Worldwide AI Spending Will Total $1.5 Trillion in 2025, Gartner, 17 septembre 2025
² 2025 CEO Study : 5 mindshifts to supercharge business growth, IBM Institute for Business Value, 9 juillet 2025
³ The GenAI Divide : State of AI in Business 2025, MIT NANDA, juillet 2025
⁴ From AI projects to profits : How agentic AI can sustain financial returns, IBM Institute for Business Value, 12 juin 2025