Accueil Thèmes data labeling Qu’est-ce que l’étiquetage des données ?
Découvrir la solution d’étiquetage des données d’IBM S’inscrire pour recevoir les dernières informations sur l’IA
Illustration avec collage de pictogrammes de nuages, graphique circulaire et pictogrammes graphiques
Qu’est-ce que l’étiquetage des données ?

L’étiquetage des données, ou annotation de données, fait partie de l’étape de prétraitement lors du développement d’un modèle de machine learning (ML).

L'étiquetage des données nécessite l'identification des données brutes (images, fichiers texte, vidéos), puis l'ajout d'une ou plusieurs étiquettes à ces données pour spécifier leur contexte pour les modèles, permettant ainsi au modèle de machine learning de faire des prédictions précises.

L’étiquetage des données est à la base de différents cas d’utilisation du machine learning et de l’apprentissage profond, notamment la vision par ordinateur et le traitement du langage naturel (NLP).

L’entrepôt de données pour l’IA

Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, avec des améliorations pour dimensionner l’IA et des possibilités d’optimisation des coûts.

Contenu connexe

Obtenir l’e-book sur l’IA générative

Comment fonctionne l'étiquetage des données ?

Les entreprises intègrent des logiciels, des processus et des annotateurs de données pour nettoyer, structurer et étiqueter les données. Ces données de formation deviennent la base des modèles de machine learning. Ces étiquettes permettent aux analystes d’isoler des variables au sein d’ensembles de données, ce qui, à son tour, permet la sélection de prédicteurs de données optimaux pour les modèles de ML. Les étiquettes identifient les vecteurs de données appropriés à extraire pour l'entraînement du modèle, qui apprend ensuite à faire les meilleures prédictions.

Outre l’assistance des machines, les tâches d’étiquetage des données nécessitent la participation d’un « humain dans la boucle  » (« human-in-the-loop » ou HITL). L’HITL s’appuie sur le jugement des « étiqueteurs de données » humains pour créer, entraîner, affiner et tester des modèles de machine learning. Il permet de guider le processus d’étiquetage des données en fournissant aux modèles les jeux de données les plus pertinents pour un projet donné.

Données étiquetées vs données non étiquetées
 

Les ordinateurs utilisent des données étiquetées et non étiquetées pour entraîner les modèles ML, mais quelle est la différence ?

  • Les données étiquetées sont utilisées dans l’apprentissage supervisé, tandis que les données non étiquetées sont utilisées dans l’apprentissage non supervisé.
  • Les données étiquetées sont plus difficiles à acquérir et à stocker (c'est-à-dire chronophage et coûteuse), tandis que les données non étiquetées sont plus faciles à acquérir et à stocker.
  • Les données étiquetées peuvent être utilisées pour déterminer les informations exploitables (par exemple de prévision), tandis que les données non étiquetées ont une utilité plus limitée. Les méthodes d’apprentissage non supervisées peuvent aider à découvrir de nouveaux clusters de données, ce qui permet de nouvelles catégorisations lors de l’étiquetage.

Les ordinateurs peuvent également utiliser des données combinées pour l’apprentissage semi-supervisé, ce qui réduit le besoin de données étiquetées manuellement tout en fournissant un grand jeu de données annotées.

Approches de l’étiquetage des données

L’étiquetage des données est une étape critique dans le développement d’un modèle de ML performant. Bien que l’étiquetage puisse paraître simple, il n’est pas toujours facile à mettre en œuvre. Par conséquent, les entreprises doivent prendre en compte plusieurs facteurs et méthodes pour déterminer la meilleure approche en matière d’étiquetage. Étant donné que chaque méthode d'étiquetage des données a ses avantages et ses inconvénients, une évaluation détaillée de la complexité de la tâche, ainsi que de la taille, de la portée et de la durée du projet est conseillée.

Voici quelques approches pour l’étiquetage de vos données :

  • Étiquetage interne - Le recours à des experts internes en science des données simplifie le suivi, apporte une plus grande précision et améliore la qualité. Cependant, cette approche prend généralement plus de temps et concerne surtout les grandes entreprises disposant de ressources importantes.
  • Étiquetage synthétique : cette approche génère de nouvelles données de projet à partir de jeux de données préexistants, ce qui améliore la qualité des données et le gain de temps. Notez que l’étiquetage synthétique nécessite une puissance informatique importante, ce qui peut faire augmenter les prix.
  • Étiquetage programmatique - Ce processus automatisé d’étiquetage des données utilise des scripts pour réduire le temps de travail et la nécessité d'une annotation humaine. Cependant, la possibilité de problèmes techniques exige que HITL reste une partie du processus d'assurance qualité (QA).
  • Externalisation - Il peut s'agir d'un choix optimal pour les projets temporaires de haut niveau, mais le développement et la gestion d'un workflow axé sur le freelance peuvent également prendre du temps. Alors que les plateformes de travail indépendant fournissent des informations complètes sur les candidats afin de faciliter le processus de sélection, les équipes chargées de l’étiquetage des données dans le cadre de la gestion du recrutement fournissent du personnel présélectionné et des outils d’étiquetage de données pré-créées.
  • Crowdsourcing - Cette approche est plus rapide et plus rentable en raison de sa capacité de micro-tâches et de sa distribution basée sur le Web. Cependant, la qualité des travailleurs, l’assurance qualité et la gestion de projet varient selon les plateformes de crowdsourcing. L’un des exemples les plus célèbres d’étiquetage de données collaboratif est Recaptcha. Ce projet comportait deux volets : il contrôlait les bots tout en améliorant simultanément l’annotation des données sur les images. Par exemple, un message Recaptcha demanderait à un utilisateur d'identifier toutes les photos contenant une voiture pour prouver qu'il s'agit d'un humain, puis le programme pourrait vérifier lui-même en fonction des résultats des autres utilisateurs. Les entrées fournies par ces utilisateurs ont fourni une base de données d’étiquettes pour une série d’images.
Avantages et défis de l'étiquetage des données

L’inconvénient principal de l’étiquetage des données est que, s'il peut réduire le temps de mise à l'échelle d'une entreprise, il a tendance à avoir un coût. Des données plus précises améliorent généralement les prédictions du modèle, de sorte que, malgré son coût élevé, la valeur qu’il fournit vaut généralement bien l’investissement. Étant donné que l’annotation des données fournit plus de contexte aux jeux de données, il améliore les performances de l’analyse exploratoire des données ainsi que des applications de machine learning (ML) et d’intelligence artificielle (IA). Par exemple, l’étiquetage des données produit des résultats de recherche plus pertinents sur les plateformes de moteurs de recherche et de meilleures recommandations de produits sur les plateformes d'e-commerce. Abordons d’autres avantages et défis clés :

Avantages
 

L'étiquetage des données permet aux utilisateurs, aux équipes et aux entreprises de bénéficier d'un meilleur contexte, d'une meilleure qualité et d'une plus grande facilité d'utilisation. Voici plus précisément ce à quoi vous pouvez vous attendre :

  • Des prédictions plus précises : un étiquetage précis des données garantit une meilleure assurance qualité dans les algorithmes de machine learning, permettant au modèle de s’entraîner et de produire les résultats attendus. Sinon, comme le dit le vieil adage, « des mauvaises informations sont synonymes de mauvaises conclusions ». Les données correctement étiquetées fournissent la «vérité de fond » (c’est-à-dire la façon dont les étiquettes reflètent les scénarios du « monde réel ») pour tester et itérer les modèles ultérieurs.
  • Meilleure utilisabilité des données : l’étiquetage des données peut également améliorer l’utilisabilité des variables de données au sein d’un modèle. Par exemple, vous pouvez reclasser une variable catégorielle en tant que variable binaire pour la rendre plus consommable pour un modèle.  L’agrégation des données de cette manière peut optimiser le modèle en réduisant le nombre de variables de modèle ou permettre l’inclusion de variables de contrôle. Que vous utilisiez des données pour créer des modèles de vision par ordinateur (c’est-à-dire en plaçant des boîtes de délimitation autour des objets) ou des modèles NLP (c’est-à-dire une classification du texte en fonction du sentiment social), l’utilisation de données de haute qualité est une priorité absolue.

Défis
 

L'étiquetage des données n'est pas sans poser de problèmes. Les défis les plus courants sont les suivants :

  • Coûteux et chronophage : bien que l’étiquetage des données soit essentiel pour les modèles de machine learning, il peut être coûteux en termes de ressources et de temps. Si une entreprise adopte une approche plus automatisée, les équipes d’ingénierie devront toujours configurer des pipelines de données avant le traitement des données, et l’étiquetage manuel sera presque toujours coûteux et chronophage.
  • Sujet aux erreurs humaines : ces approches d'étiquetage sont également sujettes à des erreurs humaines (par ex. erreurs de codage, erreurs de saisie manuelle), qui peuvent impacter la qualité des données. Cela conduit à un traitement et à une modélisation inexacts des données. Les contrôles d’assurance qualité sont essentiels pour maintenir la qualité des données.
Bonnes pratiques en matière d'étiquetage des données

Quelle que soit l’approche, les bonnes pratiques suivantes optimisent la précision et l’efficacité de l’étiquetage des données :

  • Des interfaces de tâches intuitives et rationalisées minimisent la charge cognitive et le changement de contexte pour les étiqueteurs humains.
  • Consensus : mesure le taux de consensus entre plusieurs étiqueteurs (humains ou mécaniques). Un score de consensus est calculé en divisant la somme des étiquettes convenues par le nombre total d’étiquettes par actif.
  • Audit d’étiquettes : vérifie l’exactitude des étiquettes et les met à jour au besoin.
  • Apprentissage par transfert : il prend un ou plusieurs modèles pré-entraînés dans un jeu de données et les applique à un autre. Cela peut inclure l’apprentissage multi-tâches, dans lequel plusieurs tâches sont apprises en même temps.
  • Apprentissage actif : une catégorie d’algorithmes ML et un sous-ensemble d’apprentissage semi-supervisé qui aide les humains à identifier les ensembles de données les plus appropriés. Les approches d’apprentissage actif comprennent :
    • Synthèse de requête d’appartenance : génère une instance synthétique et demande une étiquette pour celle-ci.
    • Échantillonnage basé sur le pool - Classement de toutes les instances non étiquetées en fonction de la mesure de l'informativité et sélection des meilleures requêtes à annoter.
    • Echantillonnage sélectif basé sur le flux - Sélectionne les instances non étiquetées une par une et les étiquette ou les ignore en fonction de leur caractère informatif ou de leur incertitude.
Cas d’utilisation de l’étiquetage des données

Même si l'étiquetage peut améliorer la précision, la qualité et la facilité d’utilisation des données dans de nombreux secteurs, ses cas d'utilisation les plus courants sont les suivants :

  • Vision par ordinateur : un domaine de l’IA qui utilise des données d’entraînement pour créer un modèle de vision par ordinateur permettant la segmentation d’image et l’automatisation de catégories, identifie les points clés d’une image et détecte l’emplacement des objets. En fait, IBM propose une plateforme de vision par ordinateur, Maximo Visual Inspection, qui permet aux experts en la matière (PME) d’étiqueter et d’entraîner des modèles de vision d’apprentissage profond qui peuvent être déployés dans le cloud, sur des appareils de périphérie et dans des centres de données locaux. La vision par ordinateur est utilisée dans divers domaines allant du secteur de l’énergie et des services publics à la fabrication, en passant par l’industrie automobile. D’ici 2022, ce secteur en plein essor devrait atteindre une valeur de marché de 48,6 milliards de dollars.
  • Traitement automatique du langage naturel (NLP) : branche de l'IA qui associe la linguistique informatique à des modèles statistiques, de machine learning et d'apprentissage profond pour identifier et baliser les sections de texte importantes qui génèrent des données d'entraînement pour l'analyse des sentiments, la reconnaissance des noms d'entités et la reconnaissance optique de caractères. Le NLP est de plus en plus utilisé dans des solutions d'entreprise telles que la détection des spams, la traduction automatique, la reconnaissance vocale, la synthèse de texte, les assistants virtuels et les chatbots, ainsi que les systèmes GPS à commande vocale. Cela a fait du NLP un élément essentiel dans l’évolution des processus métier critiques.
Solutions connexes
Natural Language Understanding

Le service de traitement automatique du langage naturel (NLP) pour l'analyse avancée de textes.

Découvrir IBM Watson Natural Language Understanding
Cloud Object Storage

Favorisez les workloads d’IA et consolidez le stockage primaire et secondaire du big data grâce à un stockage d’objets sur site leader du secteur.

Explorer IBM Cloud Object Storage
Inspection visuelle

Visualisez, anticipez et évitez les problèmes grâce aux fonctionnalités avancées de surveillance à distance et de vision par ordinateur basées sur l'IA pour les actifs et les opérations.

Découvrir IBM Maximo Application Suite Visual Inspection
Passez à l’étape suivante

Faites évoluer les workloads d’IA pour toutes vos données n’importe où avec IBM watsonx.data, un entrepôt de données adapté à vos besoins basé sur une architecture data lakehouse ouverte.

Découvrir watsonx.data Réserver une démo en direct