Qu’est-ce que l’étiquetage des données ?

L’étiquetage des données, ou annotation de données, fait partie de l’étape de prétraitement lors du développement d’un modèle de machine learning (ML).

L’étiquetage des données consiste à identifier les données brutes, telles que des images, des fichiers texte ou des vidéos, et à attribuer une ou plusieurs étiquettes pour spécifier leur contexte pour les modèles de machine learning. Ces étiquettes aident les modèles à interpréter correctement les données, leur permettant de faire des prédictions précises.

L’étiquetage des données est à la base de différents cas d’utilisation du machine learning et de l’apprentissage profond, notamment la vision par ordinateur et le traitement du langage naturel (NLP).

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Comment fonctionne l'étiquetage des données ?

Les entreprises intègrent des logiciels, des processus et des annotateurs de données pour nettoyer, structurer et étiqueter les données. Ces données de formation deviennent la base des modèles de machine learning. Ces étiquettes permettent aux analystes d’isoler les variables au sein des jeux de données, et ce processus, à son tour, permet de sélectionner des prédicteurs de données optimaux pour les modèles de ML. Les étiquettes identifient les vecteurs de données appropriés à extraire pour l'entraînement du modèle, qui apprend ensuite à faire les meilleures prédictions.

Outre l’assistance des machines, les tâches d’étiquetage des données nécessitent la participation d’un « humain dans la boucle » (« human-in-the-loop » ou HITL). L’HITL s’appuie sur le jugement des « étiqueteurs de données » humains pour créer, entraîner, affiner et tester des modèles de machine learning. Il permet de guider le processus d’étiquetage des données en fournissant aux modèles les jeux de données les plus pertinents pour un projet donné.

Données étiquetées et données non étiquetées

Les ordinateurs utilisent des données étiquetées et non étiquetées pour entraîner les modèles ML, mais quelle est la différence ?

Les données étiquetées sont utilisées dans l’apprentissage supervisé, tandis que les données non étiquetées sont utilisées dans l’apprentissage non supervisé.
Les données étiquetées sont plus difficiles à acquérir et à stocker (c'est-à-dire chronophage et coûteuse), tandis que les données non étiquetées sont plus faciles à acquérir et à stocker.
Les données étiquetées peuvent être utilisées pour déterminer des insights exploitables (par exemple, forecasting des tâches), tandis que les données non étiquetées ont une utilité plus limitée. Les méthodes d’apprentissage non supervisées peuvent aider à découvrir de nouveaux clusters de données, ce qui permet de nouvelles catégorisations lors de l’étiquetage.

Les ordinateurs peuvent également utiliser des données combinées pour l’apprentissage semi-supervisé, ce qui réduit le besoin de données étiquetées manuellement tout en fournissant un grand jeu de données annotées.

AI Academy

Devenir un expert en IA

Obtenez les connaissances nécessaires pour privilégier les investissements dans l’IA qui favorisent la croissance commerciale. Lancez-vous dès aujourd’hui avec notre AI Academy gratuite et menez l’avenir de l’IA au sein de votre organisation.

Regarder la série

Approches de l’étiquetage des données

L’étiquetage des données est une étape critique dans le développement d’un modèle de ML performant. Bien que l'étiquetage semble simple, il n'est pas nécessairement facile à mettre en œuvre. Par conséquent, les entreprises doivent prendre en compte plusieurs facteurs et méthodes pour déterminer la meilleure approche en matière d’étiquetage. Étant donné que chaque méthode d'étiquetage des données a ses avantages et ses inconvénients, une évaluation détaillée de la complexité de la tâche, ainsi que de la taille, de la portée et de la durée du projet est conseillée.

Voici quelques approches pour l’étiquetage de vos données :

Étiquetage interne : le recours à des experts internes en science des données simplifie le suivi, apporte une plus grande précision et améliore la qualité. Cependant, cette approche prend généralement plus de temps et concerne surtout les grandes entreprises disposant de ressources importantes.
Étiquetage synthétique : cette approche génère de nouvelles données de projet à partir de jeux de données préexistants, ce qui améliore la qualité des données et le gain de temps. Notez que l’étiquetage synthétique nécessite une puissance informatique importante, ce qui peut faire augmenter les prix.
Étiquetage programmatique :Ce processus automatisé d’étiquetage des données utilise des scripts pour réduire le temps de travail et la nécessité d'une annotation humaine. Cependant, la possibilité de problèmes techniques exige que HITL reste une partie du processus d'assurance qualité (QA).
Externalisation : il peut s'agir d'un choix optimal pour les projets temporaires de haut niveau, mais le développement et la gestion d'un workflow axé sur le freelance peuvent également prendre du temps. Alors que les plateformes de travail indépendant fournissent des informations complètes sur les candidats afin de faciliter le processus de sélection, les équipes chargées de l’étiquetage des données dans le cadre de la gestion du recrutement fournissent du personnel présélectionné et des outils d’étiquetage de données pré-créées.
Crowdsourcing : Cette approche est plus rapide et plus rentable en raison de sa capacité de micro-tâches et de sa distribution basée sur le Web. Cependant, la qualité des travailleurs, l’assurance qualité et la gestion de projet varient selon les plateformes de crowdsourcing. reCAPTCHA est l’un des exemples les plus connus d’étiquetage de données collaboratif. Ce projet comportait deux volets : il contrôlait les bots tout en améliorant simultanément l’annotation des données sur les images. Par exemple, un prompt reCAPTCHA demanderait à un utilisateur d'identifier toutes les photos contenant une voiture pour prouver qu'elles étaient humaines. Le programme peut ensuite vérifier sa précision en comparant les résultats à ceux d’autres utilisateurs. Les entrées fournies par ces utilisateurs ont fourni une base de données d’étiquettes pour une série d’images.

Avantages et défis de l'étiquetage des données

Le compromis général de l'étiquetage des données est que, même s'il peut accélérer le processus de mise à l'échelle d'une entreprise, il entraîne souvent un coût important. Des données plus précises permettent de meilleures prédictions, ce qui fait de l'étiquetage des données un investissement précieux, mais coûteux. Malgré son coût élevé, il vaut mieux pour les entreprises en raison de la précision accrue qu’il apporte.

En ajoutant plus de contexte aux jeux de données, l’annotation de données améliore les performances des applications d’analyse exploratoire de données, de machine learning (ML) et d’intelligence artificielle (IA). Par exemple, les données étiquetées permettent d’obtenir des résultats de recherche plus pertinents sur les plateformes de moteurs de recherche et d’améliorer les recommandations de produits en matière d’e-commerce. Découvrons maintenant plus en détail les autres défis et principaux avantages.

Avantages

L'étiquetage des données permet aux utilisateurs, aux équipes et aux entreprises de bénéficier d'un meilleur contexte, d'une meilleure qualité et d'une plus grande facilité d'utilisation. Voici plus précisément ce à quoi vous pouvez vous attendre :

Des prédictions plus précises : un étiquetage précis des données garantit une meilleure assurance qualité dans les algorithmes de machine learning, permettant au modèle de s’entraîner et de produire les résultats attendus. Sinon, comme le dit le vieil adage, « des mauvaises informations sont synonymes de mauvaises conclusions ». Les données correctement étiquetées fournissent la « vérité de fond » (c’est-à-dire la façon dont les étiquettes reflètent les scénarios du « monde réel ») pour tester et itérer les modèles ultérieurs.
Meilleure utilisabilité des données : l’étiquetage des données peut également améliorer l’utilisabilité des variables de données au sein d’un modèle. Par exemple, vous pouvez reclasser une variable catégorielle en tant que variable binaire pour la rendre plus consommable pour un modèle. L’agrégation des données de cette manière peut optimiser le modèle en réduisant le nombre de variables de modèle ou permettre l’inclusion de variables de contrôle. Que vous utilisiez des données pour construire des modèles de vision par ordinateur (en plaçant des cadres de délimitation autour des objets) ou des modèles NLP (en classant le texte pour les sentiments sociaux), garantir des données de haute qualité est une priorité absolue.

Défis

L'étiquetage des données comporte son propre lot de défis. Les défis les plus courants sont les suivants :

Coûteux et chronophage : bien que l’étiquetage des données soit essentiel pour les modèles de machine learning, il peut être coûteux en termes de ressources et de temps. Si une entreprise adopte une approche plus automatisée, les équipes d’ingénierie devront toujours configurer des pipelines de données avant le traitement des données, et l’étiquetage manuel sera presque toujours coûteux et chronophage.
Risque d'erreur humaine : ces méthodes d'étiquetage sont également sujettes à l'erreur humaine (par exemple, erreurs de codage, erreurs de saisie manuelle), ce qui peut diminuer la qualité des données. Ce processus, à son tour, conduit à un traitement de données inexacts et à une modélisation. Les contrôles d’assurance qualité sont essentiels pour maintenir la qualité des données.

Bonnes pratiques en matière d'étiquetage des données

Quelle que soit l’approche, les bonnes pratiques suivantes optimisent la précision et l’efficacité de l’étiquetage des données :

Des interfaces de tâches intuitives et rationalisées minimisent la charge cognitive et le changement de contexte pour les étiqueteurs humains.
Consensus : mesure le taux de consensus entre plusieurs étiqueteurs (humains ou mécaniques). Un score de consensus est calculé en divisant la somme des étiquettes convenues par le nombre total d’étiquettes par actif.
Audit d’étiquettes : vérifie l’exactitude des étiquettes et les met à jour au besoin.
Apprentissage par transfert : il prend un ou plusieurs modèles pré-entraînés dans un jeu de données et les applique à un autre. Ce processus peut inclure un apprentissage multitâche, dans lequel plusieurs tâches sont apprises en tandem.
Apprentissage actif : une catégorie d’algorithmes ML et un sous-ensemble d’apprentissage semi-supervisé qui aide les humains à identifier les jeux de données les plus appropriés. Les approches d'apprentissage actif incluent :
- Synthèse de requête d’appartenance : génère une instance synthétique et demande une étiquette pour celle-ci.
- Échantillonnage basé sur le pool : classement de toutes les instances non étiquetées en fonction de la mesure de l'informativité et sélection des meilleures requêtes à annoter.
- Échantillonnage sélectif basé sur le flux : sélectionne les instances non étiquetées une par une et les étiquette ou les ignore en fonction de leur caractère informatif ou de leur incertitude.

Cas d’utilisation de l’étiquetage des données

Même si l'étiquetage peut améliorer la précision, la qualité et la facilité d’utilisation des données dans de nombreux secteurs, ses cas d'utilisation les plus courants sont les suivants :

Vision par ordinateur : un domaine de l’IA qui utilise des données d’entraînement pour créer un modèle de vision par ordinateur permettant la segmentation d’image et l’automatisation de catégories, identifie les points clés d’une image et détecte l’emplacement des objets. IBM propose une plateforme de vision par ordinateur appelée Maximo Visual Inspection, qui permet à des experts en la matière (SME) d'étiqueter et d'entraîner des modèles de vision par apprentissage profond. Ces modèles peuvent être déployés dans le cloud, sur des appareils edge et dans des centres de données locaux. La vision par ordinateur est utilisée dans divers domaines allant du secteur de l’énergie et des services publics à la fabrication, en passant par l’industrie automobile. D’ici 2022, ce secteur en plein essor devrait atteindre une valeur de marché de 48,6 milliards de dollars.
Traitement automatique du langage naturel (NLP) : une branche de l’IA combine la linguistique informatique avec les modèles statistiques, le machine learning et l’apprentissage profond pour identifier et étiqueter les sections de texte importantes. Ces sections étiquetées génèrent des données d’entraînement pour l’analyse des sentiments, la reconnaissance du nom d’entité et la reconnaissance optique de caractères. Le NLP est de plus en plus utilisé dans des solutions d'entreprise telles que la détection des spams, la traduction automatique, la reconnaissance vocale, la synthèse de texte, les assistants virtuels et les chatbots, ainsi que les systèmes GPS à commande vocale. Cette avancée a fait du NLP un élément essentiel dans l’évolution des processus métier essentiels à la mission.

Science des données et MLOps pour les responsables des données

Alignez-vous avec d'autres responsables sur les 3 objectifs clés de MLOps et de l'IA digne de confiance : confiance dans les données, confiance dans les modèles et confiance dans les processus.

Ressources

Découvrir IBM Granite

IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.

L’IA en action 2024

Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.

Libérez la puissance de l’IA générative et du ML

Apprenez comment intégrer l’IA générative, le machine learning et les modèles de fondation dans vos opérations métier pour améliorer les performances.

Choisir le bon modèle de fondation

Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.

Qu’est-ce que le machine learning ?

Le machine learning est une branche de l’IA et de l’informatique qui se concentre sur l’utilisation de données et d’algorithmes pour permettre à l’IA d’imiter la façon dont les humains apprennent.

Comment prospérer en toute confiance dans cette nouvelle ère de l’IA

Explorez les trois éléments clés d’une stratégie d’IA réussie : créer un avantage concurrentiel, étendre l’IA à l’ensemble de l’entreprise et faire progresser l’IA digne de confiance.

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA

Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA

Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Qu’est-ce que l’étiquetage des données ?