Qu’est-ce que la vérité terrain ?

20 décembre 2024

Auteurs

Alexandra Jonker

Editorial Content Lead

Qu’est-ce que la vérité terrain ?

La vérité terrain ou les données de vérité terrain désignent des données véritables et vérifiées utilisées pour entraîner, valider et tester les modèles d’intelligence artificielle (IA).
 

Dans le domaine de la science des données, les données de vérité terrain constituent la référence en matière de précision. Les data scientists les utilisent pour évaluer les performances en comparant les sorties à la « réponse correcte » (données obtenues à partir d’observations réelles). Ils peuvent ainsi vérifier que les modèles de machine learning (ML) produisent des résultats précis qui reflètent la réalité.

Les données de vérité terrain sont particulièrement importantes pour l’apprentissage supervisé, une sous-catégorie du ML qui utilise des jeux de données étiquetés pour entraîner des algorithmes à classer les données (classificateurs) ou à prédire les résultats avec précision.

L’étiquetage ou l’annotation des données est fondamental pour la collecte des données de vérité terrain. En l’absence d’étiquettes ou d’annotations précises, les données ne peuvent pas servir de références d’authenticité par rapport au monde réel.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Pourquoi les données de vérité terrain sont-elles importantes ?

Les données de vérité terrain constituent la base du machine learning supervisé, qui repose sur des jeux de données étiquetés de haute qualité. Les modèles de ML supervisé sont utilisés pour créer et faire progresser de nombreuses applications d’IA d’aujourd’hui. Par exemple, les modèles de ML supervisés sont à l’origine de la reconnaissance d’images et d’objets, de l’analyse prédictive, de l’analyse des sentiments client et de la détection du spam.

Les données de vérité terrain fournissent les informations précisément vérifiées et étiquetées nécessaires pour entraîner des modèles de ML supervisé, valider leurs performances et tester leur capacité à généraliser (ou à faire des prédictions précises à partir de nouvelles données). En agissant comme « réponse correcte » par rapport aux prédictions des modèles, la vérité terrain permet de garantir que les systèmes d’IA apprennent les bons schémas et fonctionnent de manière fiable dans des scénarios réels.

Imaginons une photo de chat. Le jeu de données d’entraînement pour cette image peut comprendre des étiquettes pour le corps, les oreilles, les yeux et les nez du chat, ainsi que des classifications jusqu’au niveau du pixel. Ces annotations enseignent aux algorithmes de machine learning comment identifier des caractéristiques similaires dans de nouvelles données d’image.

La précision de ces étiquettes de jeu d’entraînement est essentielle. Si les annotations sont incorrectes ou incohérentes (des pattes de chien étiquetées au lieu de pattes de chat), le modèle ne parvient pas à apprendre les schémas corrects. Cela peut produire des prédictions fausses.

Un chat avec des pattes de chien peut paraître anodin. Cependant, les enjeux des fausses prédictions sont plus importants dans des domaines tels que la santé et l’atténuation des changements climatiques, où la précision en temps réel est primordiale.  

Mixture of Experts | 25 avril, épisode 52

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Vérité terrain tout au long du cycle de vie du ML

La vérité terrain est essentielle au cycle de vie du machine learning supervisé, y compris les phases d’entraînement, de validation et de test des modèles de machine learning.

  • Entraînement : pendant la phase d’entraînement, les données de vérité terrain fournissent des réponses correctes qui enseignent le modèle. La précision de l’étiquetage des données est cruciale : si les données de vérité terrain sont erronées ou incohérentes, le modèle apprend des schémas incorrects et peine à faire des prédictions précises.

  • Validation : une fois le modèle entraîné, il est évalué sur la qualité de son apprentissage à partir des données de vérité terrain. Cela se fait par le biais de la validation, où les prédictions du modèle sont comparées à un échantillon différent des données de vérité terrain. Le modèle peut être ajusté et optimisé à ce stade.

  • Tests : après avoir été entraîné et validé, le modèle est testé à l’aide d’un nouveau jeu de données pour s’assurer qu’il fonctionne bien sur de nouvelles données encore inconnues (généralisation). C’est là que l’efficacité du modèle dans des scénarios réels est véritablement évaluée. Des indicateurs tels que l’exactitude, la précision et le rappel évaluent la performance du modèle et mettent en évidence les domaines à améliorer.

Vérité terrain dans différentes tâches de ML

La vérité terrain sert de base à plusieurs tâches d’apprentissage supervisé, notamment la classification, la régression et la segmentation. Qu’un modèle apprenne à classer les données, à prévoir les résultats numériques ou à identifier des objets dans les images, la vérité terrain fournit les références pour des prédictions précises. Ces tâches s’accompagnent d’une multitude de cas d’utilisation dans le monde réel, pour lesquels la précision des données de vérité terrain est cruciale.

Classification

Dans les tâches de classification, les données de vérité terrain fournissent les étiquettes correctes pour chaque entrée, ce qui aide le modèle à catégoriser les données en classes prédéfinies. Par exemple, en classification binaire, un modèle fait la distinction entre deux catégories (comme vrai ou faux). La classification multiclasse est un peu plus complexe : le modèle attribue des données à l’une des classes qu’il doit choisir.  

Prenons l’exemple du secteur de la santé. Les plateformes d’IA utilisent souvent la classification multiclasse pour analyser les images médicales de tomodensitométrie et IRM afin de faciliter le diagnostic.

D’une manière générale, une application d’IA peut examiner une radiographie d’un bras, par exemple, et la classer dans l’une des quatre catégories suivantes : cassé, fracturé, foulé ou sain. Si les données de vérité terrain sont erronées, les prévisions seront incorrectes, ce qui peut entraîner des erreurs de diagnostic ou retarder les traitements.

Régression

Les tâches de régression se concentrent sur la prédiction de valeurs continues. Les données de vérité terrain représentent les résultats numériques réels que le modèle cherche à prédire. Par exemple, un modèle de régression linéaire peut prévoir les prix des biens immobiliers en fonction de facteurs comme la superficie en mètres carrés, le nombre de pièces et l’emplacement.

Dans le domaine de l’atténuation des changements climatiques, les modèles d’IA utilisent l’imagerie satellite et des données de télédétection pour surveiller les changements environnementaux, notamment les variations de température ou la déforestation.

Dans ce cas, les données de vérité terrain comprennent des enregistrements vérifiés de données météorologiques historiques ou de mesures de température connues. Ces données de vérité terrain permettent de s’assurer que les prédictions du modèle d’IA sont exactes et d’éclairer les décisions critiques en matière de politiques et d’actions pour le climat.

Segmentation

Les tâches de segmentation consistent à décomposer une image ou un jeu de données en régions ou objets distincts. Dans la segmentation, les données de vérité terrain sont souvent définies au niveau du pixel, ce qui permet d’identifier les contours ou les régions dans une image.

Par exemple, dans le cadre du développement de véhicules autonomes, des étiquettes de vérité terrain sont utilisées pour entraîner des modèles à détecter et à différencier les piétons, les véhicules et les panneaux de signalisation dans des environnements réels et à agir en conséquence. Si les étiquettes de vérité terrain sont incorrectes ou incohérentes, le modèle risque de mal identifier les objets et d’entraîner de graves dangers pour la sécurité routière.

Défis courants liés à l’établissement de la vérité terrain

L’établissement de données de vérité terrain de haute qualité pose plusieurs défis, notamment :

  • Étiquetage incohérent des données : la variabilité dans les jeux de données est une difficulté fréquente pour les data scientists, car elle peut générer des incohérences et affecter le comportement du modèle. Même des erreurs mineures d’étiquetage dans les attributions et les citations peuvent se cumuler et entraîner des erreurs de prédiction du modèle.

  • Subjectivité et ambiguïté : de nombreuses tâches d’étiquetage de données nécessitent un jugement humain, qui peut être subjectif. Par exemple, dans des tâches telles que l’ analyse des sentiments, différents annotateurs peuvent interpréter les données différemment, ce qui entraîne des incohérences dans la vérité terrain.

  • Complexité des données : les jeux de données volumineux et diversifiés, courants dans des domaines tels que le traitement automatique du langage naturel (NLP) ou l’intelligence artificielle générative, peuvent être plus difficiles à annoter avec précision. La complexité des données, avec de multiples étiquettes possibles et des nuances contextuelles, peut rendre plus difficile l’établissement d’une vérité terrain cohérente.

  • Données faussées et biaisées : les données de vérité terrain ne sont pas toujours tout à fait représentatives des scénarios réels, en particulier si le jeu de données étiqueté est incomplet ou déséquilibré. Cela peut donner lieu à des modèles biaisés.

  • Évolutivité et coût : l’étiquetage de grands jeux de données, en particulier ceux qui nécessitent des connaissances spécialisées et une observation directe (comme les images médicales), est à la fois long et coûteux. Les efforts d’étiquetage des données pour répondre aux exigences des systèmes d’IA modernes nécessitent souvent l’automatisation ou le crowdsourcing, mais ces approches peuvent toujours introduire des erreurs ou des incohérences.

Stratégies pour établir des données de vérité terrain de haute qualité

Les entreprises disposent de plusieurs stratégies et méthodologies pour établir et optimiser des données de vérité terrain de haute qualité, notamment :

  • Définition de l’objectif et des besoins en données : une définition claire des objectifs du modèle permet aux entreprises de déterminer les types de données et d’étiquettes nécessaires pour que le processus de collecte des données corresponde à l’utilisation prévue du modèle. Cette adéquation est particulièrement importante dans des domaines tels que la vision par ordinateur, dans laquelle le ML et les réseaux neuronaux apprennent aux systèmes à tirer des informations significatives à partir d’entrées visuelles.

  • Élaboration d’une stratégie complète : les entreprises peuvent créer des directives standardisées pour l’étiquetage des données de vérité terrain afin de garantir la cohérence et la précision du jeu de données. Un schéma d’étiquetage bien défini peut indiquer comment annoter les différents formats de données et uniformiser les annotations lors du développement du modèle.

  • Collaboration entre l’homme et la machine : les outils de machine learning comme Amazon SageMaker Ground Truth ou IBM Watson Natural Language Understanding peuvent renforcer l’expertise des annotateurs humains. Par exemple, Amazon SageMaker Ground Truth fournit un service d’étiquetage des données qui facilite la création de jeux de données d’entraînement de haute qualité grâce à des processus d’étiquetage automatisés et de révision humaine.

  • Vérification de la cohérence des données : les équipes peuvent surveiller la cohérence des données étiquetées en mettant en œuvre des processus d’assurance qualité, tels que des accords interannotateurs (IAA). Un IAA est un indicateur statistique qui évalue le niveau de cohérence entre différents annotateurs lorsqu’ils étiquettent les mêmes données.

  • Traitement des biais : les data scientists doivent être conscients des biais potentiels et s’efforcer de les éviter dans leurs jeux de données de vérité terrain. Ils peuvent employer plusieurs techniques, notamment des pratiques assurant la diversité des données collectées en faisant appel à plusieurs annotateurs différents pour chaque point de données, en croisant les données avec des sources externes ou en utilisant des stratégies d’augmentation des données pour les groupes sous-représentés.

  • Mise à jour des données de vérité terrain : les données de vérité terrain sont un actif dynamique. Les entreprises peuvent vérifier les prédictions de leur modèle par rapport à de nouvelles données et mettre à jour le jeu de données étiqueté à mesure que les conditions du monde réel évoluent. L’imagerie satellite, les données de télédétection et les modèles de changements climatiques sont autant d’exemples de jeux de données qui nécessitent un calibrage continu pour maintenir la précision au fil du temps.
Solutions connexes
IBM watsonx.governance

Gouvernez les modèles d’IA générative où que vous soyez et déployez-les dans le cloud ou sur site avec IBM watsonx.governance.

Découvrez watsonx.governance
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Dirigez, gérez et surveillez votre IA à l’aide d’un portefeuille unique pour favoriser une IA responsable, transparente et explicable.

Découvrez watsonx.governance Réserver une démo en direct