Qu'est-ce que l'étiquetage des données ?
Explorez les utilisations et les avantages de l'étiquetage des données, notamment les différentes approches et les meilleures pratiques.
Arrière-plan noir et bleu
Qu'est-ce que l'étiquetage des données ?

L'étiquetage des données, ou annotation des données, fait partie de l'étape de prétraitement lors du développement d'un modèle d'apprentissage automatique.  Il nécessite l'identification des données brutes (images, fichiers texte, vidéos), puis l'ajout d'une ou plusieurs étiquettes à ces données pour indiquer leur contexte pour les modèles, ce qui permet au modèle d'apprentissage automatique de faire des prédictions précises.

L'étiquetage des données sous-tend différents cas d'utilisation d'apprentissage automatique et d'apprentissage en profondeur, notamment la vision par ordinateur et le traitement automatique du langage naturel.

Produits à la une

IBM Watson Natural Language Understanding

IBM Cloud Object Storage

Comment l'étiquetage des données fonctionne-t-il ?

Les sociétés intègrent des logiciels, processus et annotateurs de données pour nettoyer, structurer et étiqueter les données. Ces données d'entraînement deviennent la base des modèles d'apprentissage automatique. Les étiquettes permettent aux analystes d'isoler les variables dans les fichiers, ce qui permet ensuite de sélectionner des prédicteurs de données optimaux pour les modèles d'apprentissage automatique. Elles identifient les vecteurs de données appropriés à extraire pour l'entraînement du modèle, qui apprend alors à faire les meilleures prédictions.

Outre l'assistance de la machine, les tâches d'étiquetage des données nécessitent une intervention « human-in-the-loop (HITL) ». Le HITL s'appuie sur le jugement des « étiqueteurs de données » humains pour créer, entraîner, affiner et tester des modèles d'apprentissage automatique. Il aide à guider le processus d'étiquetage des données en alimentant les fichiers de modèles qui sont les plus applicables à un projet donné.

Données étiquetées et données non étiquetées
 

Les ordinateurs utilisent les données étiquetées et non étiquetées pour entraîner les modèles d'apprentissage automatique, mais quelle est la différence ?

  • Les données étiquetées sont utilisées dans l'apprentissage supervisé, alors que les données non étiquetées sont utilisées dans l'apprentissage non supervisé
  • Les données étiquetées sont plus difficiles à acquérir et à stocker (c'est-à-dire qu'elles sont chronophages et coûteuses), tandis que les données non étiquetées le sont moins.
  • Les données étiquetées peuvent être utilisées pour déterminer des informations exploitables (par exemple, des tâches de prévision), tandis que les données non étiquetées sont plus limitées dans leur utilité. Les méthodes d'apprentissage non supervisé aident à découvrir de nouveaux clusters de données, permettant de nouvelles catégorisations lors de l'étiquetage.

Les ordinateurs peuvent également utiliser des données combinées pour l'apprentissage semi-supervisé, ce qui réduit le besoin en données étiquetées manuellement tout en fournissant un grand fichier annoté.

Approches d'étiquetage des données

L'étiquetage des données est une étape critique dans le développement d'un modèle d'apprentissage automatique hautes performances. Bien que l'étiquetage semble simple, il n'est pas toujours facile à mettre en œuvre. Par conséquent, les entreprises doivent prendre en compte plusieurs facteurs et méthodes pour déterminer la meilleure approche d'étiquetage. Comme chaque méthode d'étiquetage de données a ses avantages et ses inconvénients, une évaluation détaillée de la complexité de la tâche, ainsi que de la taille, la portée et la durée du projet est conseillée.

Voici quelques procédures pour étiqueter vos données :

  • Étiquetage interne - L'utilisation de spécialistes en science des données internes simplifie le suivi, fournit une plus grande précision et augmente la qualité. Cependant, cette approche nécessite généralement plus de temps et favorise les grandes entreprises dotées de plus de ressources.
  • Étiquetage synthétique - Cette approche génère de nouvelles données de projet à partir de fichiers préexistants, ce qui améliore la qualité des données et le rendement. Cependant, l'étiquetage synthétique nécessite une grande puissance de calcul, ce qui peut en augmenter le prix.
  • Étiquetage programmatique - Ce processus d'étiquetage de données automatisé utilise des scripts pour réduire le temps utilisé et le besoin en annotation humaine. Cependant, la possibilité de problèmes techniques nécessite que le HITL fasse partie du processus d'assurance qualité (QA).
  • Externalisation - Cela peut être un choix optimal pour des projets temporaires de haut niveau, mais le développement et la gestion d'un flux indépendant peuvent également être chronophages. Bien que les plateformes indépendantes fournissent des informations candidat complètes pour faciliter le processus de contrôle, l'embauche d'équipes d'étiquetage de données gérées fournit du personnel pré-approuvé et des outils d'étiquetage des données préconfigurés.
  • Crowdsourcing - Cette approche est plus rapide et plus rentable en raison de sa capacité de micro-tâches et de sa distribution Web. Cependant, la qualité des employés, le contrôle de la qualité et la gestion de projet varient au sein des plateformes de crowdsourcing. L'un des exemples les plus célèbres d'étiquetage de données par crowdsourcing est Recaptcha. Ce projet était double, il contrôlait les robots tout en améliorant simultanément l'annotation des données des images. Par exemple, une invite Recaptcha demandait à un utilisateur d'identifier toutes les photos contenant une voiture pour prouver qu'il était une personne, puis le programme effectuait une vérification automatique sur la base des résultats d'autres utilisateurs. Les entrées de ces utilisateurs constituaient une base de données d'étiquettes pour un ensemble d'images.
Avantages et défis de l'étiquetage des données

La contrepartie générale de l'étiquetage des données est que, bien qu'il puisse réduire le temps de mise à l'échelle d'une entreprise, il a tendance à avoir un coût. Des données plus précises améliorent généralement les prédictions du modèle, de sorte que, malgré son coût élevé, la valeur qu'il fournit vaut généralement l'investissement. Comme l'annotation des données fournit plus de contexte aux fichiers, elle améliore la performance de l'analyse de données exploratoire ainsi que les applications d'apprentissage automatique et d'intelligence artificielle. Par exemple, l'étiquetage des données produit des résultats de recherche plus pertinents au sein des plateformes de moteur de recherche et de meilleures recommandations de produit sur les plateformes de commerce électronique. Explorons plus dans le détail les principaux avantages et défis :

Avantages
 

L'étiquetage des données fournit aux utilisateurs, équipes et sociétés plus de contexte, de qualité et de facilité d'utilisation. Plus précisément, vous pouvez attendre :

  • Des prévisions plus précises :  un étiquetage des données précis garantit une meilleure assurance de la qualité au sein de l'apprentissage automatique, permettant au modèle d'entraîner et de générer la sortie attendue. Sinon, comme le dit le vieil adage, « à données inexactes, résultats erronés ». Les données correctement étiquetées fournissent les « données de référence » (c'est-à-dire comment les étiquettes reflètent les scénarios du « monde réel ») pour le test et l'itération des modèles suivants.
  • Une meilleure facilité d'utilisation des données : l'étiquetage des données peut également améliorer la facilité d'utilisation des variables de données au sein d'un modèle. Par exemple, vous pouvez reclassifier une variable nominale en variable binaire pour la rendre plus consommable pour un modèle.  Cette agrégation de données permet d'optimiser le modèle par la réduction du nombre de variables ou l'inclusion de variables de contrôle. Que vous utilisiez des données pour créer des modèles de vision par ordinateur (c'est-à-dire en plaçant des cadres de délimitation autour des objets) ou des modèles de traitement du langage naturel (c'est-à-dire en classifiant du texte d'opinion sur les réseaux sociaux), l'utilisation de données de haute qualité est une priorité absolue.

Défis
 

L'étiquetage des données n'est pas sans défis. Les plus courants sont les suivants :

  • Coûteux et chronophage :  bien que l'étiquetage des données soit critique pour les modèles d'apprentissage automatique, il peut être coûteux aussi bien en temps qu'en ressources. Si une entreprise adopte une approche plus automatisée, les équipes d'ingénierie devront configurer des pipelines de données avant le traitement de l'information, et l'étiquetage manuel sera presque toujours coûteux et chronophage.
  • Sujet aux erreurs humaines :  ces approches d'étiquetage sont également sujettes à l'erreur humaine (erreurs de codage, erreurs d'entrée manuelle), ce qui peut diminuer la qualité des données et conduire à un traitement de l'information et de la modélisation imprécis. Les contrôles d'assurance qualité sont essentiels au maintien de la qualité des données.
Meilleures pratiques en matière d'étiquetage des données

Peu importe l'approche, les meilleures pratiques suivantes optimisent la précision et l'efficacité de l'étiquetage des données :

  • Interfaces de tâche intuitives et rationalisées : réduisent la charge cognitive et le changement de contexte pour les étiqueteurs humains.
  • Consensus : mesure le taux de convergence entre plusieurs étiqueteurs (humains ou machine). Un score de consensus est calculé en divisant la somme des étiquettes conformes par le nombre totale d'étiquettes par actif.
  • Audit des étiquettes : vérifie l'exactitude des étiquettes et les met à jour au besoin.
  • Apprentissage de transfert : prend un ou plusieurs modèles pré-entraînés d'un fichier et les applique à un autre. Cela peut inclure un apprentissage multitâche, dans lequel plusieurs tâches sont apprises en tandem.
  • Apprentissage actif :  catégorie d'apprentissage automatique et sous-ensemble d'apprentissage semi-supervisé qui aide les humains à identifier les fichiers les plus appropriés. Les approches d'apprentissage incluent :
    • Synthèse des requêtes d'appartenance  – Génère une instance synthétique et demande une étiquette pour celle-ci.
    • Échantillonnage basé sur pool – Classe toutes les instances non étiquetées selon la mesure d'informativité et sélectionne les meilleures requêtes à annoter.
    • Échantillonnage basé sur les flux – Sélectionne les instances non étiquetées une par une et les étiquette ou les ignore en fonction de leur caractère informatif ou de leur incertitude.
Cas d'utilisation de l'étiquetage des données

Bien que l'étiquetage des données puisse améliorer l'exactitude, la qualité et la facilité d'utilisation dans de multiples contextes dans tous les secteurs, les cas d'utilisation les plus fréquents sont les suivants :

  • Vision par ordinateur : domaine de l'IA qui utilise des données d'entraînement pour générer un modèle de vision par ordinateur qui permet la segmentation d'images et l'automatisation de catégories, identifie les points clés d'une image et détecte l'emplacement des objets. IBM propose une plateforme de vision par ordinateur, Maximo Visual Inspection, qui permet aux experts du domaine (SME) d'étiqueter et d'entraîner des modèles de vision d'apprentissage en profondeur pouvant être déployés dans le cloud, des unités périphériques et des centres de données locaux. La vision par ordinateur est utilisée dans de multiples secteurs, de l'énergie aux services publics en passant par la fabrication et l'automobile. D'ici 2022, ce domaine en plein essor devrait atteindre une valeur de marché de 48,6 milliards de dollars.
  • Traitement automatique du langage naturel (NLP) : branche de l'IA qui associe la linguistique computationnelle aux modèles statistiques, d'apprentissage automatique et d'apprentissage en profondeur pour identifier et étiqueter les sections de texte importantes qui génèrent des données d'entraînement pour l'analyse des sentiments, la reconnaissance des noms d'entité et la reconnaissance optique des caractères. Le traitement automatique du langage naturel est de plus en plus utilisé dans les solutions d'entreprise telles que la détection des courriers indésirables, la traduction automatique, la reconnaissance vocale, la récapitulation de texte, les assistants virtuels et agents conversationnels et les systèmes GPS à commande vocale. Il est ainsi devenu un composant essentiel de l'évolution des processus métier critiques.
Solutions connexes
Natural Language Understanding

Service de traitement automatique du langage naturel pour l'analyse avancée de texte.

Explorer IBM Watson Natural Language Understanding
Cloud Object Storage

Exécutez les charges de travail d'IA et consolidez le stockage principal et secondaire des big data grâce au stockage d'objets sur site, leader du secteur.

Explorer IBM Cloud Object Storage
Visual inspection

Voir, prévoir et prévenir les problèmes grâce à la surveillance à distance avancée et à la vision par ordinateur optimisées par l'IA pour les actifs et les opérations.

Explorer IBM Maximo Application Suite Visual Inspection
Pour aller plus loin

IBM propose davantage de ressources pour vous aider à surmonter les défis liés à l'étiquetage des données et à optimiser votre expérience globale d'étiquetage des données. Quelle que soit la taille ou quel que soit le calendrier de votre projet, IBM Cloud et IBM Watson peuvent améliorer vos processus d'entraînement des données, développer vos efforts de classification des données et simplifier les modèles de prévision complexes.

Explorer Watson Natural Language Understanding