Étiquetage des données

menu icon

Étiquetage des données

Découvrez les utilisations et les avantages de l’étiquetage des données, ainsi que les différentes approches et les pratiques recommandées.

Qu’est-ce que l’étiquetage des données ?

L’étiquetage des données, ou annotation des données, fait partie de l’étape de prétraitement lors du développement d’un modèle de machine learning (ML). Il implique d'identifier des données brutes (c’est à dire des images, des fichiers au format texte, des vidéos), puis d'ajouter une ou plusieurs étiquettes à ces données afin de préciser leur contexte pour les modèles, ce qui permet au modèle de machine learning de générer des prévisions précises.

​L’étiquetage des données est un élément clé de différents cas d’utilisation du machine learning et de l'apprentissage en profondeur tels que la vision par ordinateur et le traitement automatique du langage naturel (NLP).

Comment l’étiquetage des données fonctionne-t-il ?

Les entreprises intègrent des logiciels, des processus et des annotateurs de données pour nettoyer, structurer et étiqueter les données. Ces données d’apprentissage deviennent la base des modèles de machine learning. Ces étiquettes permettent aux analystes d’isoler des variables dans des jeux de données et, par la suite, de sélectionner des indicateurs de données optimaux pour les modèles de ML. Les étiquettes identifient les vecteurs de données appropriés à intégrer pour l’apprentissage du modèle, lequel apprend alors à établir les meilleures prévisions.

En plus de l’assistance technique, les tâches d’étiquetage des données requièrent une intervention humaine (human-in-the-loop ou HITL). Le modèle HITL exploite le jugement des « étiqueteurs de données » humains pour créer, former, affiner et tester les modèles de ML. Il guide les processus d’étiquetage des données en fournissant aux modèles les jeux de données les plus adaptés à un projet donné.

Comparaison entre données étiquetées et données non étiquetées

Les ordinateurs utilisent des données étiquetées et non étiquetées pour former les modèles de ML, mais en quoi diffèrent-elles ?

  • Les données étiquetées sont utilisées dans l’apprentissage supervisé, tandis que les données non étiquetées le sont dans l’apprentissage non supervisé.
  • Les données étiquetées sont plus difficiles à acquérir et à stocker (c’est à dire qu’elles prennent du temps et sont coûteuses), alors que les données non étiquetées sont plus faciles à acquérir et à stocker.
  • Les données étiquetées peuvent servir à déterminer des analyses exploitables (par exemple, des tâches de prévision), alors que les données non étiquetées ont une utilité plus limitée. Les méthodes d’apprentissage non supervisé peuvent aider à découvrir de nouveaux clusters de données, permettant de nouvelles catégorisations lors de l’étiquetage.

Les ordinateurs peuvent également utiliser des données combinées pour l’apprentissage semi-supervisé, ce qui diminue le besoin d’étiquetage manuel des données tout en fournissant un grand jeu de données annotées.

Approches en matière d'étiquetage des données

L’étiquetage des données est une étape critique dans le développement d’un modèle de ML hautement performant. Bien qu'il semble simple, l’étiquetage n’est pas toujours facile à implémenter. C'est pourquoi les entreprises doivent envisager plusieurs facteurs et méthodes pour déterminer la meilleure approche en matière d’étiquetage. Étant donné que chaque méthode d’étiquetage des données a ses avantages et ses inconvénients, il est conseillé de procéder à une évaluation détaillée de la complexité de la tâche, ainsi que de la taille, de la portée et de la durée du projet.

Voici quelques méthodes pour étiqueter vos données :

  • Étiquetage interne – Le recours en interne à des spécialistes en science des données simplifie le suivi, offre une plus grande précision et améliore la qualité. Cependant, cette approche demande généralement plus de temps et convient plus particulièrement aux grandes entreprises disposant de ressources importantes.
  • Étiquetage synthétique – Cette approche génère de nouvelles données de projet à partir de jeux de données préexistants, ce qui améliore la qualité et la rapidité des données. Cependant, l’étiquetage synthétique nécessite une très grande puissance de calcul, ce qui peut augmenter les coûts.
  • Étiquetage programmé – Ce processus d’étiquetage automatisé des données utilise des scripts pour réduire le temps nécessaire et la nécessite de recourir à une annotation humaine. Cependant, le risque de problèmes techniques nécessite que l’HITL fasse partie du processus d’assurance qualité (QA).
  • Externalisation – L’externalisation peut être un choix optimal pour les projets temporaires de haut niveau, mais le développement et la gestion d’un flux de travail axé sur les travailleurs indépendants s'avèrent parfois chronophages. Si les plateformes dédiées aux travailleurs indépendants fournissent des informations complètes sur les candidats et simplifient le processus de vérification, engager des équipes d’étiquetage de données gérées fournit un personnel préalablement vérifié et des outils d’étiquetage de données préconstruits.
  • Externalisation ouverte – Cette approche est plus rapide et plus économique du fait de sa capacité à créer des micro-tâches et de sa distribution sur le Web. Cependant, la qualité des professionnels, l'assurance qualité et la gestion des projets varient selon les plateformes d'externalisation ouverte. Recaptcha est un célèbre exemple d’étiquetage de données par externalisation ouverte. Ce projet avait une double vocation, à savoir contrôler les bots tout en améliorant l’annotation des données des images. Par exemple, une invite Recaptcha pourrait demander à un utilisateur d’identifier toutes les photos contenant une voiture pour prouver qu’il s’agit bien d’un être humain, ce programme s’autocontrôlant ensuite en fonction des résultats des autres utilisateurs. Les entrées de ces utilisateurs fournissent une base de données d’étiquettes pour un ensemble d’images.

Avantages et défis de l’étiquetage des données

L'inconvénient habituel de l’étiquetage des données est que, même si ce processus peut réduire le temps nécessaire à une mise à l'échelle de l'entreprise, il s'avère souvent coûteux. Une précision accrue des données améliore en général les prévisions des modèles. C'est pourquoi, malgré son prix élevé, ce type d'étiquetage offre une valeur qui justifie généralement l'investissement requis. Comme l’annotation des données apporte davantage de contexte aux jeux de données, elle améliore les performances de l’analyse exploratoire des données ainsi que du machines learning (ML) et des applications d’intelligence artificielle (AI). Par exemple, l’étiquetage des données donne des résultats de recherche plus pertinents sur les plateformes de moteurs de recherche et de meilleures recommandations de produits sur les plateformes de commerce électronique. Intéressons-nous de plus près à d’autres avantages et défis majeurs :

Avantages

L’étiquetage des données permet aux utilisateurs, aux équipes et aux entreprises de bénéficier d’un contexte, d’une qualité et d’une utilisation améliorés. Plus précisément, les avantages offerts sont les suivants :

  • Prévisions plus précises : un étiquetage des données précis garantit une meilleure assurance qualité des algorithmes de machine learning, ce qui permet au modèle de se perfectionner et de générer les résultats attendus. À l'opposé, des données inexactes produiront des résultats erronés. Les données correctement étiquetées  constituent la « ground truth » (c’est à dire la façon dont les étiquettes reflètent les scénarios du « monde réel ») pour tester et itérer les modèles à venir.
  • Meilleure utilisation des données : l’étiquetage des données peut aussi améliorer l’utilisation des variables de données dans un modèle. Par exemple, vous pourriez reclasser un variable de catégorie en variable binaire pour faciliter son utilisation dans un modèle.  L’agrégation des données peut ainsi optimiser le modèle en réduisant le nombre de variables du modèle ou permettre l’inclusion de variables de contrôle. Que vous utilisiez des données pour construire des modèles de vision par ordinateur (par exemple, en plaçant des boîtes englobantes autour d’objets) ou des modèles de NLP (par exemple, en triant du texte concernant le sentiment social), l’utilisation de données de haute qualité est une priorité absolue.

Défis

L’étiquetage des données n'est pas dépourvu de problèmes. Plus spécifiquement, il s'assortit souvent des difficultés suivantes :

  • Il est coûteux et chronophage : si l’étiquetage des données est primordial pour les modèles de machine learning, il peut être coûteux, tant du point de vue des ressources que du temps. Si une entreprise opte pour une approche plus automatisée, les équipes d’ingénierie devront quand même mettre en place des pipelines de données avant le traitement des données, et l’étiquetage manuel sera quasiment toujours long et cher.
  • Il est propice aux erreurs humaines : ces approches d’étiquetage sont également sujettes à l’erreur humaine (par exemple, erreurs de codage, erreurs de saisie manuelle) qui peuvent diminuer la qualité des données. Cela entraîne par la suite des imprécisions dans le traitement et la modélisation des données. Les contrôles d’assurance qualité sont essentiels pour maintenir la qualité des données.

Pratiques recommandées en matière d’étiquetage des données

Quelle que soit l’approche, les pratiques recommandées ci-après optimisent la précision et l’efficacité de l’étiquetage des données :

  • Des interfaces intuitives et simplifiées minimisent la charge cognitive et le changement de contexte pour les étiqueteurs humains.
  • Consensus : Mesure le taux de correspondance entre plusieurs étiqueteurs (humain ou machine). Un score de consensus est calculé en divisant la somme des étiquettes concordantes par le nombre total d’étiquettes par actif.
  • Contrôle de l'étiquetage : Vérifie l’exactitude des étiquettes et les met à jour, le cas échéant.
  • Apprentissage par transfert : Prend un ou plusieurs modèles préalablement entraînés d’un jeu de données et les applique à un autre. Cela peut inclure un apprentissage multi-tâches, dans lequel plusieurs tâches sont apprises en binôme.
  • Apprentissage actif : Une catégorie d’algorithmes de ML et un sous-ensemble de formations semi-supervisées aident les êtres humains à identifier les jeux de données les plus adéquats. Les approches d’apprentissage actif comprennent :
    • Synthèse de requête d'adhésion – Génère une instance synthétique et lui attribue une étiquette.
    • Échantillonnage basé sur des pools – Classe toutes les instances non étiquetées selon une mesure de la capacité à instruire et sélectionne les meilleures requêtes à annoter.
    • Échantillonnage sélectif basé sur des flux – Sélectionne des instances non étiquetées une par une, puis les étiquette ou les ignore en fonction de leur degré de capacité à instruire ou d’incertitude.

Cas d’utilisation de l’étiquetage des données

Même si l’étiquetage des données peut améliorer la précision, la qualité et la facilité d'utilisation dans de nombreux domaines et secteurs d’activité, ses principaux cas d’utilisation sont les suivants :

  • Vision par ordinateur : Un domaine de l’IA qui utilise des données d’apprentissage pour construire un modèle de vision informatique capable de segmenter des images et d’automatiser des catégories, d’identifier des points clés dans une image et de détecter l’emplacement d’objets. De fait, IBM propose Maximo Visual Inspection, une plateforme de vision par ordinateur qui permet aux experts techniques (SME) d’étiqueter et de former des modèles de vision pour l'apprentissage en profondeur pouvant être déployés dans le cloud, sur des unités de périphérie et dans des centres de données locaux. La vision par ordinateur est utilisée dans de nombreux secteurs, allant du domaine de l’énergie à ceux de la fabrication et de l’automobile en passant par les services publics. D’ici 2022, ce domaine en plein essor devrait atteindre une valeur de marché de 48,6 milliards de dollars.
  • Traitement du langage naturel (NLP) : Une branche de l’IA qui associe la linguistique informatique à des modèles statistiques, de machine learning et d'apprentissage en profondeur permettant d’identifier et de baliser les sections importantes du texte qui génèrent des données d’apprentissage pour l’analyse des sentiments, la reconnaissance des noms d’entités et la reconnaissance optique des caractères. Le NLP est de plus en plus utilisé dans des solutions d’entreprise telles que la détection du spam, la traduction automatique, la reconnaissance vocale, le résumé de texte, les assistants virtuels et les agents conversationnels, ainsi que les systèmes GPS à commande vocale. Cela a fait du NLP un composant essentiel de l’évolution des processus stratégiques.

IBM et l’étiquetage des données

IBM offre plus de ressources destinées à surmonter les problèmes associés à l’étiquetage des données et à optimiser votre expérience globale dans ce domaine.

  • IBM Cloud Annotations  – Outil collaboratif à code source ouvert qui utilise les modèles d’IA pour aider les développeurs à créer des ensembles de données d’images totalement étiquetées, en temps réel, sans que les étiquettes soient dessinées manuellement.
  • IBM Cloud Object Storage – Chiffré au repos et accessible depuis n’importe quel emplacement, il stocke les données sensibles et protège l’intégrité, la disponibilité et la confidentialité des données via l’algorithme de dispersion d’informations (IDA) et à la transformation tout ou rien (AONT).
  • IBM Watson – Plateforme d’IA avec des outils et des services axés sur le NLP qui permettent aux entreprises d’optimiser le temps de travail de leurs employés, d’automatiser des processus métier complexes et d’obtenir des informations stratégiques pour anticiper les résultats futurs.

Quelle que soit la taille ou la durée de votre projet, IBM Cloud et IBM Watson peuvent améliorer vos méthodes d’entraînement des données, développer vos efforts de classification des données et simplifier les modèles de prévision complexes.