Que sont les données d'entraînement ?

Qu’est-ce que les données d’entraînement ?

Les données d’entraînement sont des informations utilisées pour apprendre à un modèle de machine learning à faire des prédictions, à reconnaître des schémas ou à générer du contenu. Une fois qu'un algorithme a traité une grande quantité de données, ils sont considérés comme « entraînés » et utilisables pour de nombreuses applications. Cependant, sans données d'entraînement, même les algorithmes les plus sophistiqués ne sont pas efficaces, à l'instar d'un étudiant brillant qui n'aurait pas étudié pour un examen.

Tout machine learning commence par un ensemble de données ou une collection de données. Un jeu de données peut être composé de feuilles de calcul, de séquences vidéo, de pages Web, de PDF ou de tout autre type de données. En règle générale, plus il y a de données d'entraînement dans un modèle, meilleures sont ses performances. Mais il ne s’agit pas seulement de la quantité de données, leur qualité est également très importante.

Les données d’entraînement de l’IA sont constituées de fonctionnalités, également appelées attributs, qui décrivent les données. Par exemple, un ensemble de données concernant un équipement d'usine peut inclure la température, la vitesse d'oscillation et la date de la dernière réparation. Ces données sont « introduites » dans un algorithme de machine learning, un ensemble d’instructions exprimées par un morceau de code qui traite une entrée de données afin de créer une sortie. Alimenter l’algorithme en données signifie lui fournir des données d’entrée, qui sont ensuite traitées et analysées pour générer la sortie. Un modèle mathématique entraîné est le résultat de ce processus. Ces modèles constituent la base de presque toutes les innovations récentes en matière d’intelligence artificielle.

Certains modèles sont utilisés pour le traitement automatique du langage naturel (NLP), qui peut être utilisé pour apprendre aux machines à lire et à parler en langage humain. La vision par ordinateur permet à d'autres modèles d'interpréter les informations visuelles. Mais tout commence par les données d’entraînement.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Types d'entraînement

Différents types d’algorithmes d’apprentissage utilisent différentes approches pour entraîner les données. L’apprentissage supervisé utilise des données étiquetées, tandis que l’apprentissage non supervisé utilise des données non étiquetées. L’apprentissage semi-supervisé combine les deux.

Modèles d'entraînement pour l'apprentissage supervisé

L'apprentissage supervisé est une technique de machine learning qui utilise des jeux de données étiquetés pour entraîner des modèles IA afin d'identifier les modèles sous-jacents à travers les points de données. Les données étiquetées comprennent des caractéristiques et des étiquettes, ainsi que les résultats correspondants que le modèle utilise pour comprendre la relation entre les deux.

De nombreuses entreprises emploient de grandes équipes d'annotateurs de données humains, qui sont parfois assistés par des machines. Ces annotateurs ont souvent besoin de compétences techniques pour garantir que les données sont correctement étiquetées. Par exemple, lorsque vous étiquetez des données juridiques, les annotateurs peuvent avoir besoin d’une expérience en droit. Le processus consistant à utiliser des annotateurs humains pour garantir un étiquetage approprié est parfois appelé « humain dans la boucle ».

La détection des spams est un exemple classique d’apprentissage supervisé. Pour apprendre à un modèle à identifier le spam, on peut l’exposer à un jeu de données composé de milliers d’e-mails, chacun étant étiqueté par des humains comme « spam » ou « non-spam ». Le modèle examinera les modèles dans les e-mails, remarquant différents modèles. Par exemple, les e-mail dont l'objet contient le mot « gratuit » sont plus susceptibles d'être des spams. Le modèle calcule la probabilité statistique que le mot « gratuit » dans la ligne d’objet corresponde à l’étiquette « spam ». Ensuite, lorsqu’on lui fournit un nouvel e-mail sans étiquette, le modèle peut appliquer ce calcul, ainsi que beaucoup d’autres, pour déterminer si le nouvel e-mail est un spam ou non.

Ce type de machine learning est qualifié de « supervisé » car il nécessite une supervision humaine pour étiqueter toutes ces données.

Modèles d'entraînement pour l'apprentissage non supervisé

Les modèles d’apprentissage non supervisés fonctionnent de manière autonome pour découvrir la structure inhérente des données non étiquetées. Alors que l'apprentissage supervisé est utile pour mapper les entrées aux sorties, l'apprentissage non supervisé est mieux adapté pour trouver des modèles, des structures et des relations au sein des données elles-mêmes, sans aucun conseil sur ce qu'il faut rechercher.

Imaginez par exemple qu’un annonceur souhaite regrouper les clients dans des segments distincts en fonction du comportement d’achat, sans connaître les catégories à l’avance. Un ensemble de données sans étiquette peut inclure des fonctionnalités telles que la fréquence d'achat, la valeur moyenne des commandes, les types de produits achetés et le délai depuis le dernier achat, mais il ne comporte pas de colonnes pour le « type de client ». C’est ce que le modèle essaie de comprendre. Un algorithme de clustering peut être utilisé pour identifier trois clusters :

  1. Dépenses élevées, acheteurs fréquents
     

  2. Acheteurs occasionnels à prix réduit
     

  3. Nouveaux clients ou clients ponctuels

Le modèle a appris les tendances de manière autonome et a effectué ces regroupements directement à partir du jeu de données d'entraînement.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Préparation des données d’entraînement

Les données sont partout autour de nous. La population mondiale génère d’immenses quantités de données chaque seconde de la journée. Mais les données brutes ne servent généralement pas à l’entraînement des modèles. L'assurance qualité est critique. Tout d’abord, les données doivent être pré-traitées via un pipeline de données à plusieurs étapes. Il peut s’agir d’un processus complexe pour les data scientists, car il représente une grande partie de la portée d’un projet de machine learning et nécessite des outils et une infrastructure de science des données sophistiqués. Les données de mauvaise qualité peuvent introduire du bruit et des biais, ce qui empêche les modèles de machine learning de faire des prédictions précises, mais des données d'entraînement de haute qualité permettent aux modèles de produire des résultats plus fiables dans d'innombrables cas d'utilisation, de l'automatisation à la traduction en passant par la prise de décision basée sur les données.

Collecte des données

Les premières données doivent être collectées. Pour les systèmes d’IA comme les véhicules autonomes ou les maisons intelligentes, la collecte de données peut être effectuée à l’aide de capteurs ou d’appareils IdO. Les agences gouvernementales, les instituts de recherche et les entreprises fournissent souvent des jeux de données publics. Les annonceurs utilisent les flux de clics, les soumissions de formulaires et les données comportementales des utilisateurs.

Nettoyage et transformation des données

Les données brutes contiennent souvent des valeurs manquantes, des doublons et d'autres erreurs. Une fois les données collectées, elles doivent être nettoyées pour corriger ces erreurs. Cela peut être aussi simple que de normaliser les formats, par exemple en s'assurant que les dates apparaissent sous la forme JJ/MM/YYY. Après le nettoyage, les données doivent souvent être transformées dans un format permettant aux algorithmes de les traiter plus facilement. L’ingénierie des caractéristiques pré-traite les données brutes dans un format lisible par une machine. Elle transforme et sélectionne les caractéristiques pertinentes pour optimiser la performance des modèles de ML.

Fractionnement du jeu de données

Pour évaluer la capacité d'un modèle à se généraliser à de nouvelles données, on divise généralement le jeu de données en trois jeux de données. Le premier est un ensemble d’entraînement utilisé pour ajuster les paramètres d’un modèle afin de trouver la meilleure correspondance entre ses prédictions et les données, un processus d’entraînement appelé « ajustement ». Le second est un jeu de données de validation utilisé pour affiner les hyperparamètres et éviter le surajustement. Enfin, un ensemble de données de test est utilisé pour l’évaluation finale des performances du modèle.

Étiquetage des données

Parfois appelé « annotation humaine », l’étiquetage des données est le processus qui consiste à ajouter des étiquettes significatives aux données brutes afin qu’un modèle puisse en tirer des informations. Les étiquettes peuvent décrire n'importe quelle propriété des données. Par exemple, une publication sur les réseaux sociaux disant « Ce produit est nul » peut être qualifiée de « sentiment négatif » dans le cadre d'un processus connu sous le nom d'analyse des sentiments. Un annotateur humain pourrait étiqueter une photo d'un chien comme « chien ». Une transaction bancaire peut être qualifiée de « frauduleuse ».

Les étapes suivantes peuvent inclure la structuration, l'enrichissement et la gestion des versions des données. Certains workflows incluent une boucle de commentaires dans laquelle l’analyse révèle où des données plus volumineuses ou de meilleure qualité sont nécessaires, ou où les données inutiles peuvent être filtrées.

Tendances des données d’entraînement

Les données étant tout aussi importantes que l’architecture des modèles, une grande attention est accordée à l’optimisation du processus de formation des données. Les données synthétiques constituent un domaine d'innovation. Au lieu de collecter d'énormes jeux de données du monde réel, les entreprises génèrent désormais des données synthétiques en utilisant l'IA elle-même.

Une autre tendance consiste à créer des jeux de données plus petits et de meilleure qualité. Les grands modèles n’ont pas simplement besoin de plus de données, ils ont besoin de meilleures données. Les data scientists créent des jeux de données plus petits ou des jeux de données spécifiques à des tâches, qui conviennent à des cas d’utilisation précis. Par exemple, un LLM utilisé dans le domaine des services juridiques peut être entraîné exclusivement sur des corpus juridiques pour de meilleurs résultats.

Le travail de prétraitement des données décrit dans cet article peut être effectué automatiquement grâce à l’IA. Les nouveaux algorithmes permettent de nettoyer les jeux de données énormes, de supprimer le texte de mauvaise qualité, le contenu en double et les éléments de base non pertinents, ce qui permet d’économiser du temps et des capacités de calcul.

Ce ne sont là que quelques tendances dans un domaine en plein essor.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct