Dans le domaine de la science des données, les données de vérité terrain constituent la référence en matière de précision. Les data scientists les utilisent pour évaluer les performances en comparant les sorties à la « réponse correcte » (données obtenues à partir d’observations réelles). Ils peuvent ainsi vérifier que les modèles de machine learning (ML) produisent des résultats précis qui reflètent la réalité.
Les données de vérité terrain sont particulièrement importantes pour l’apprentissage supervisé, une sous-catégorie du ML qui utilise des jeux de données étiquetés pour entraîner des algorithmes à classer les données (classificateurs) ou à prédire les résultats avec précision.
L’étiquetage ou l’annotation des données est fondamental pour la collecte des données de vérité terrain. En l’absence d’étiquettes ou d’annotations précises, les données ne peuvent pas servir de références d’authenticité par rapport au monde réel.
Les données de vérité terrain constituent la base du machine learning supervisé, qui repose sur des jeux de données étiquetés de haute qualité. Les modèles de ML supervisé sont utilisés pour créer et faire progresser de nombreuses applications d’IA d’aujourd’hui. Par exemple, les modèles de ML supervisés sont à l’origine de la reconnaissance d’images et d’objets, de l’analyse prédictive, de l’analyse des sentiments client et de la détection du spam.
Les données de vérité terrain fournissent les informations précisément vérifiées et étiquetées nécessaires pour entraîner des modèles de ML supervisé, valider leurs performances et tester leur capacité à généraliser (ou à faire des prédictions précises à partir de nouvelles données). En agissant comme « réponse correcte » par rapport aux prédictions des modèles, la vérité terrain permet de garantir que les systèmes d’IA apprennent les bons schémas et fonctionnent de manière fiable dans des scénarios réels.
Imaginons une photo de chat. Le jeu de données d’entraînement pour cette image peut comprendre des étiquettes pour le corps, les oreilles, les yeux et les nez du chat, ainsi que des classifications jusqu’au niveau du pixel. Ces annotations enseignent aux algorithmes de machine learning comment identifier des caractéristiques similaires dans de nouvelles données d’image.
La précision de ces étiquettes de jeu d’entraînement est essentielle. Si les annotations sont incorrectes ou incohérentes (des pattes de chien étiquetées au lieu de pattes de chat), le modèle ne parvient pas à apprendre les schémas corrects. Cela peut produire des prédictions fausses.
Un chat avec des pattes de chien peut paraître anodin. Cependant, les enjeux des fausses prédictions sont plus importants dans des domaines tels que la santé et l’atténuation des changements climatiques, où la précision en temps réel est primordiale.
La vérité terrain est essentielle au cycle de vie du machine learning supervisé, y compris les phases d’entraînement, de validation et de test des modèles de machine learning.
La vérité terrain sert de base à plusieurs tâches d’apprentissage supervisé, notamment la classification, la régression et la segmentation. Qu’un modèle apprenne à classer les données, à prévoir les résultats numériques ou à identifier des objets dans les images, la vérité terrain fournit les références pour des prédictions précises. Ces tâches s’accompagnent d’une multitude de cas d’utilisation dans le monde réel, pour lesquels la précision des données de vérité terrain est cruciale.
Dans les tâches de classification, les données de vérité terrain fournissent les étiquettes correctes pour chaque entrée, ce qui aide le modèle à catégoriser les données en classes prédéfinies. Par exemple, en classification binaire, un modèle fait la distinction entre deux catégories (comme vrai ou faux). La classification multiclasse est un peu plus complexe : le modèle attribue des données à l’une des classes qu’il doit choisir.
Prenons l’exemple du secteur de la santé. Les plateformes d’IA utilisent souvent la classification multiclasse pour analyser les images médicales de tomodensitométrie et IRM afin de faciliter le diagnostic.
D’une manière générale, une application d’IA peut examiner une radiographie d’un bras, par exemple, et la classer dans l’une des quatre catégories suivantes : cassé, fracturé, foulé ou sain. Si les données de vérité terrain sont erronées, les prévisions seront incorrectes, ce qui peut entraîner des erreurs de diagnostic ou retarder les traitements.
Les tâches de régression se concentrent sur la prédiction de valeurs continues. Les données de vérité terrain représentent les résultats numériques réels que le modèle cherche à prédire. Par exemple, un modèle de régression linéaire peut prévoir les prix des biens immobiliers en fonction de facteurs comme la superficie en mètres carrés, le nombre de pièces et l’emplacement.
Dans le domaine de l’atténuation des changements climatiques, les modèles d’IA utilisent l’imagerie satellite et des données de télédétection pour surveiller les changements environnementaux, notamment les variations de température ou la déforestation.
Dans ce cas, les données de vérité terrain comprennent des enregistrements vérifiés de données météorologiques historiques ou de mesures de température connues. Ces données de vérité terrain permettent de s’assurer que les prédictions du modèle d’IA sont exactes et d’éclairer les décisions critiques en matière de politiques et d’actions pour le climat.
Les tâches de segmentation consistent à décomposer une image ou un jeu de données en régions ou objets distincts. Dans la segmentation, les données de vérité terrain sont souvent définies au niveau du pixel, ce qui permet d’identifier les contours ou les régions dans une image.
Par exemple, dans le cadre du développement de véhicules autonomes, des étiquettes de vérité terrain sont utilisées pour entraîner des modèles à détecter et à différencier les piétons, les véhicules et les panneaux de signalisation dans des environnements réels et à agir en conséquence. Si les étiquettes de vérité terrain sont incorrectes ou incohérentes, le modèle risque de mal identifier les objets et d’entraîner de graves dangers pour la sécurité routière.
L’établissement de données de vérité terrain de haute qualité pose plusieurs défis, notamment :
Les entreprises disposent de plusieurs stratégies et méthodologies pour établir et optimiser des données de vérité terrain de haute qualité, notamment :
Gouvernez les modèles d’IA générative où que vous soyez et déployez-les dans le cloud ou sur site avec IBM watsonx.governance.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.