Étiquetage des données
Arrière-plan noir et bleu
Étiquetage des données

Explorez les utilisations et les avantages de l'étiquetage des données, y compris les différentes approches et les meilleures pratiques.

Produits à la une

IBM Watson Natural Language Understanding

IBM Cloud Object Storage

Qu'est-ce que l'étiquetage des données ?

L'étiquetage des données, ou annotation des données, fait partie de l'étape de prétraitement lors du développement d'un modèle d'apprentissage automatique (ML). Il nécessite l'identification des données brutes (par ex., images, fichiers texte, vidéos), puis l'ajout d'une ou plusieurs étiquettes pour indiquer son contexte pour les modèles, permettant au modèle d'apprentissage automatique de faire des prévisions précises.

L'étiquetage des données étaie différents cas d'utilisation d'apprentissage automatique et d'apprentissage en profondeur, y compris la vision informatique et le traitement du langage naturel.

Comment l'étiquetage des données fonctionne-t-il ?

Les sociétés intègrent des logiciels, processus et annotateurs de données pour nettoyer, structurer et étiqueter les données. Ces données d'entraînement deviennent la base des modèles d'apprentissage automatique. Ces étiquettes permettent aux analystes d'isoler les variables dans les fichiers, et cela, à son tour, permet la sélection de prédicteurs de données optimaux pour les modèles d'apprentissage automatique. Les étiquettes identifient les vecteurs de données appropriés à extraire pour l'entraînement de modèle, où le modèle apprend ensuite à faire les meilleures prévisions.

Avec l'assistance de la machine, les tâches d'étiquetage des données nécessitent la participation « human-in-the-loop (HITL) ». Le HITL s'appuie sur le jugement des « étiqueteurs de données » humains pour créer, entraîner, affiner et tester des modèles d'apprentissage automatique. Ils aident à guider le processus d'étiquetage des données en alimentant les fichiers de modèles qui sont les plus applicables à un projet donné.

Données étiquetées et données non étiquetées
 

Les ordinateurs utilisent les données étiquetées et non étiquetées pour entraîner les modèles d'apprentissage automatique, mais quelle est la différence ?

  • Les données étiquetées sont utilisées dans l' apprentissage supervisé, alors que les données non étiquetées sont utilisées dans l' apprentissage non supervisé .
  • Les données étiquetées sont plus difficiles à acquérir et à stocker (par ex. chronophages et coûteuses), tandis que les données non étiquetées sont plus faciles à acquérir et à stocker.
  • Les données étiquetées peuvent être utilisées pour déterminer des informations exploitables (par exemple, des tâches de prévision), tandis que les données non étiquetées sont plus limitées dans leur utilité. Les méthodes d'apprentissage non supervisé aident à découvrir de nouveaux clusters de données, permettant de nouvelles catégorisations lors de l'étiquetage.

Les ordinateurs peuvent également utiliser des données combinées pour l'apprentissage semi-supervisé, ce qui réduit le besoin en données étiquetées manuellement tout en fournissant un grand fichier annoté.

Approches d'étiquetage des données

L'étiquetage des données est une étape critique dans le développement d'un modèle d'apprentissage automatique hautes performances. Bien que l'étiquetage semble simple, il n'est pas toujours facile à mettre en œuvre. Par conséquent, les entreprises doivent prendre en compte plusieurs facteurs et méthodes pour déterminer la meilleure approche d'étiquetage. Comme chaque méthode d'étiquetage de données a ses avantages et ses inconvénients, une évaluation détaillée de la complexité de la tâche, ainsi que de la taille, la portée et la durée du projet est conseillée.

Voici quelques procédures pour étiqueter vos données :

  • Étiquetage interne - L'utilisation de spécialistes en science des données internes simplifie le suivi, fournit une plus grande précision et augmente la qualité. Cependant, cette approche nécessite généralement plus temps et favorise les grandes entreprises dotées de plus de ressources.
  • Étiquetage synthétique - Cette approche génère de nouvelles données de projet à partir de fichiers préexistants, ce qui améliore la qualité des données et le rendement. Cependant, l'étiquetage synthétique nécessite une grande puissance de calcul, ce qui peut en augmenter le prix.
  • Étiquetage programmatique - Ce processus d'étiquetage de données automatisé utilise des scripts pour réduire le temps utilisé et le besoin en annotation humaine. Cependant, la possibilité de problèmes techniques nécessite que le HITL fasse partie du processus d'assurance de la qualité (QA).
  • Externalisation - Cela peut être un choix optimal pour des projets temporaires de haut niveau, mais le développement et la gestion d'un flux indépendant peuvent également être chronophages. Bien que les plateformes indépendantes fournissent des informations candidat complètes pour faciliter le processus de contrôle, l'embauche d'équipes d'étiquetage de données gérées fournit du personnel pré-approuvé et des outils d'étiquetage des données préconfigurés.
  • Crowdsourcing - Cette approche est plus rapide et en plus abordable en raison de sa capacité de micro-tâches et de sa distribution Web. Cependant, la qualité des employés, le contrôle de la qualité et la gestion de projet varient au sein des plateformes de crowdsourcing. L'un des exemples les plus célèbres d'étiquetage de données par crowdsourcing est Recaptcha. Ce projet était double en ce sens qu'il contrôlait les robots tout en améliorant simultanément l'annotation de données d'images. Par exemple, une invite Recaptcha demanderait à un utilisateur d'identifier toutes les photos contenant une voiture pour prouver qu'il est une personne. Ensuite, ce programme pourrait effectuer une vérification automatique sur la base des résultats d'autres utilisateurs. La saisie de ces utilisateurs a fourni une base de données d'étiquettes pour un ensemble d'images.
Avantages et obstacles de l'étiquetage des données

Le compromis général de l'étiquetage des données est que, bien qu'il puisse réduire le temps de mise à l'échelle d'une entreprise, il a tendance à avoir un coût. Des données plus précises améliorent généralement les prévisions du modèle. En dépit de son coût élevé, la valeur qu'il fournit vaut généralement l'investissement. Comme l'annotation des données fournit plus de contexte aux fichiers, elle améliore la performance de l'analyse de données exploratoire ainsi que les applications d'apprentissage automatique et d'intelligence artificielle. Par exemple, l'étiquetage des données produit des résultats de recherche plus pertinents au sein des plateformes de moteur de recherche et de meilleures recommandations de produit sur les plateformes de commerce électronique. Explorons plus dans le détail les principaux avantages et obstacles :

Avantages
 

L'étiquetage des données fournit aux utilisateurs, équipes et sociétés plus de contexte, de qualité et de facilité d'utilisation. Plus précisément, vous pouvez attendre :

  • Des prévisions plus précises :  un étiquetage des données précis garantit une meilleure assurance de la qualité au sein de l'apprentissage automatique, permettant au modèle d'entraîner et de générer la sortie attendue. Sinon, comme le dit le vieil adage, « à données inexactes, résultats erronés ». Des données correctement étiquetées  fournissent les « données de référence » (c.-à-d. comment les étiquettes reflètent les scénarios du « monde réel ») pour le test et l'itération des modèles suivants.
  • Une meilleure facilité d'utilisation des données : l'étiquetage des données peut également améliorer la facilité d'utilisation des variables de données au sein d'un modèle. Par exemple, vous pouvez reclassifier une variable nominale en variable binaire pour la rendre plus consommable pour un modèle.  Cette agrégation de données permet d'optimiser le modèle en réduisant le nombre de variables du modèle ou de permettre l'inclusion de variables de contrôle. Que vous utilisiez des données pour générer des modèles de vision informatique (par ex. en mettant des cadres autour des objets) ou des modèles de traitement du langage naturel (par ex. en classifiant le texte d'opinion sur les réseaux sociaux), l'utilisation de données de haute qualité est la priorité principale.

Obstacles
 

L'étiquetage des données n'est pas sans obstacles. En particulier, certains des obstacles communs sont :

  • Coûteux et chronophage :  bien que l'étiquetage des données soit critique pour les modèles d'apprentissage automatique, il peut être coûteux aussi bien en temps qu'en ressources. Si une entreprise adopte une approche plus automatisée, les équipes d'ingénierie devront configurer des pipelines de données avant le traitement de l'information et l'étiquetage manuel sera presque toujours coûteux et chronophage.
  • Sujet aux erreurs humaines :  ces approches d'étiquetage sont également sujettes à l'erreur humaine (par ex. erreurs de codage, erreurs d'entrée manuelle), ce qui peut diminuer la qualité des données. Ceci, à son tour, conduit à un traitement de l'information et de la modélisation imprécis. Les contrôles d'assurance de la qualité sont essentiels au maintien de la qualité des données.
Meilleures pratiques en matière d'étiquetage des données

Peu importe l'approche, les meilleures pratiques suivantes optimisent la précision et l'efficacité de l'étiquetage des données :

  • Les interfaces de tâche intuitives et rationalisées  réduisent la charge cognitive et le changement de contexte pour étiqueteurs humains.
  • Consensus :  mesure le taux de convergence entre plusieurs étiqueteurs (humains ou machine). Un score de consensus est calculé en divisant la somme des étiquettes conformes par le nombre totale d'étiquettes par actif.
  • Audit des étiquettes :  vérifie l'exactitude des étiquettes et les met à jour au besoin.
  • Apprentissage de transfert :  prend un ou plusieurs modèles pré-entraînés à partir d'un fichier et les applique à un autre. Cela peut inclure un apprentissage multitâche, dans lequel plusieurs tâches sont apprises en tandem.
  • Apprentissage actif :  catégorie d'apprentissage automatique et sous-ensemble d'apprentissage semi-supervisé qui aide les humains à identifier les fichiers les plus appropriés. Les approches d'apprentissage incluent :
    • Synthèse des requêtes d'appartenance  - Génère une instance synthétique et demande une étiquette pour celle-ci.
    • Échantillonnage basé sur pool - classe toutes les instances non étiquetées selon la mesure d'informativité et sélectionne les meilleures requêtes à annoter.
    • Échantillonnage sélectif par flux - Sélectionne les instances non étiquetées une par une, et les étiquette ou les ignore en fonction de leur caractère informatif ou de leur incertitude.
Cas d'utilisation de l'étiquetage des données

Bien que l'étiquetage des données puisse améliorer l'exactitude, la qualité et la facilité d'utilisation dans de multiples contextes à travers les secteurs industriels, ses cas d'utilisation les plus célèbres incluent :

  • Vision informatique :  domaine de l'IA qui utilise des données d'entraînement pour générer un modèle de vision informatique qui permet la segmentation de l'image et l'automatisation de catégorie, identifie les points clés dans une image et détecte l'emplacement des objets. En fait, IBM offre une plateforme de vision informatique, Maximo Visual Inspection, qui permet aux spécialistes du domaine (SME) d'étiqueter et d'entraîner des modèles de vision informatique pouvant être déployés sur le cloud, les périphériques et les centres de données locaux. La vision informatique est utilisée dans de multiples secteurs industriels, de l'énergie et des services publics à la fabrication et à l'automobile. D'ici 2022, ce domaine en plein essor devrait atteindre une valeur de marché de 48,6 milliards de dollars.
  • Traitement du langage naturel (NLP) : branche de l'IA qui associe la linguistique computationnelle aux modèles statistiques, d'apprentissage automatique et d'apprentissage en profondeur pour identifier et étiqueter les sections de texte importantes qui génèrent des données d'entraînement pour l'analyse des sentiments, la reconnaissance des noms d'entité et la reconnaissance optique des caractères. Le traitement du langage naturel est de plus en plus utilisé dans les solutions d'entreprise telles que la détection des courriers indésirables, la traduction automatique, la  reconnaissance vocale, la récapitulation de texte, les assistants virtuels et les agents conversationnels et les systèmes GPS à commande vocale. Cela a fait du traitement du langage naturel un composant critique dans l'évolution des processus commerciaux critiques pour la mission.
IBM et l'étiquetage des données

IBM offre plus que des ressources pour aider à surmonter les obstacles liés à l'étiquetage des données et à améliorer votre expérience globale en étiquetage des données.

  • IBM Cloud Annotations (le lien réside en dehors d'ibm.com) - Outil collaboratif d'annotation d'image à code source ouvert qui utilise des modèles d'IA pour aider les développeurs à créer des fichiers d'images totalement étiquetés, en temps réel, sans dessiner manuellement les étiquettes.
  • IBM Cloud Object Storage - Chiffré au repos et accessible de partout, il stocke les données sensibles et protège l'intégrité des données, la disponibilité et la confidentialité via Information Dispersal Algorithm (IDA) et All-or-Nothing Transform (AONT).
  • IBM Watson - Plateforme d'IA avec outils et services basé sur le traitement du langage naturel qui permet aux organisations d'optimiser le temps des employés, d'automatiser les processus commerciaux complexes et d'obtenir des informations commerciales critiques pour prédire les résultats à venir.

Peu importe la taille ou le déroulement de votre projet, IBM Cloud et IBM Watson peuvent améliorer vos processus d'entraînement des données, développer vos efforts de classification des données et simplifier les modèles de prévision complexes.

Solutions connexes
Compréhension du langage naturel

Le service de traitement du langage naturel pour l'analyse avancée de texte

Explorer IBM Watson Natural Language Understanding
Stockage des objets cloud

Activez les charges de travail d'IA et consolidez le stockage big data principal et secondaire grâce à un stockage d'objets de premier plan et rentable.

Explorer IBM Cloud Object Storage
Services de stockage d'objets sur le cloud

Service de stockage d'objets sur le cloud flexible, abordable et évolutif pour données non structurées conçues pour la durabilité, la résilience et la sécurité.

Explorer IBM Cloud Object Storage
Inspection visuelle

Voir, prévoir et prévenir les problèmes grâce à la surveillance à distance avancée optimisée par l'IA et à la vision par ordinateur pour les actifs et les opérations.

Explorer IBM Maximo Application Suite Visual Inspection