Qu’est-ce que l’entraînement d’un modèle ?

Qu’est-ce que l’entraînement d’un modèle ?

Ce processus consiste à « apprendre » à un modèle de machine learning à optimiser ses performances sur un jeu de données comprenant des échantillons de tâches en rapport avec son cas d’utilisation prévu. Si les données d’entraînement ressemblent de près aux problèmes du monde réel que le modèle sera chargé de résoudre, l’apprentissage des schémas et des corrélations dans ces données permettra au modèle entraîné de faire des prédictions précises sur de nouvelles données.

Le processus d’entraînement est l’étape la plus critique du cycle de vie des modèles d’IA, depuis les systèmes de prévision basés sur des algorithmes de régression linéaire de base jusqu’aux réseaux de neurones complexes qui alimentent l’IA générative.

L’entraînement du modèle est l’étape du machine learning (ML) où « l’apprentissage » se produit. Dans le domaine du machine learning, l’apprentissage consiste à ajuster les paramètres d’un modèle de ML. Ces paramètres incluent les poids et les biais des fonctions mathématiques qui composent leurs algorithmes. L’objectif de cet ajustement est de produire des sorties plus précises. Les valeurs spécifiques de ces poids et biais, qui sont le résultat final de l’entraînement du modèle, sont la manifestation tangible des « connaissances » du modèle.

Mathématiquement, l’objectif de cet apprentissage est de minimiser la fonction de perte qui quantifie l’erreur des sorties du modèle sur les requêtes d’entraînement. Lorsque la sortie de la fonction de perte tombe en dessous d’un seuil prédéterminé, c’est-à-dire que l’erreur du modèle sur les tâches d’entraînement est suffisamment faible, le modèle est considéré comme « entraîné ». Dans l’apprentissage par renforcement, l’objectif est inversé : au lieu de minimiser la fonction de perte, les paramètres du modèle sont optimisés pour maximiser une fonction de récompense.

En pratique, l’entraînement des modèles implique un cycle de collecte et d’organisation des données, l’exécution du modèle sur ces données d’entraînement, la mesure de la perte, l’optimisation des paramètres en conséquence et le test des performances du modèle sur des jeux de données de validation. Ce workflow se poursuit de manière itérative jusqu’à l’obtention de résultats satisfaisants. Un entraînement adéquat peut également nécessiter l’ajustement des hyperparamètres, c’est-à-dire des choix structuraux qui influencent le processus d’apprentissage, mais qui ne peuvent pas eux-mêmes « être appris », lors d’un processus appelé réglage des hyperparamètres.

Parfois, un modèle déjà entraîné peut être affiné pour des tâches ou des domaines plus spécifiques grâce à un apprentissage supplémentaire sur de nouvelles données d’entraînement. Bien que l’entraînement initial à partir de zéro et l’affinage ultérieur soient tous deux des « entraînements », le premier est généralement appelé « préentraînement » dans ce contexte (pour éviter les ambiguïtés). L’affinage, ou réglage fin, fait partie des types d’apprentissage par transfert, un terme générique désignant les techniques de machine learning qui adaptent les modèles préentraînés à de nouvelles utilisations.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Modèles et algorithmes

Bien que les termes « modèle » et « algorithme » soient souvent utilisés de manière interchangeable dans le domaine de l’intelligence artificielle, ils désignent des concepts différents. Ils se distinguent principalement l’un de l’autre par leur relation à l’entraînement du modèle.

  • Les algorithmes sont des procédures, généralement décrites en langage mathématique ou en pseudocode, qui sont utilisées pour produire des prédictions ou prendre des décisions en fonction de l’entrée qui leur est fournie.

  • Les modèles sont le résultat du processus d’optimisation des paramètres d’un algorithme pour améliorer ses performances sur un jeu de données d’entraînement spécifique, puis sur de nouvelles données proches de ces exemples d’entraînement. Pour reprendre la terminologie utilisée en science des données, ce processus correspond à « l’ajustement » de l’algorithme à un jeu de données.

En d’autres termes, un modèle d’IA est utilisé pour faire des prédictions ou prendre des décisions, et un algorithme est la logique mathématique que le modèle utilise. Deux modèles peuvent utiliser le même algorithme sous-jacent, mais avec des poids et des biais distincts, en raison des différents jeux de données utilisés pour l’entraînement.

L’apprentissage profond (deep learning) est un sous-domaine du machine learning. Ses modèles sont basés sur des réseaux de neurones comportant de nombreuses couches (d’où le terme « profond »), plutôt que sur des algorithmes spécialement conçus comme la régression logistique ou le classificateur Bayes naïf. Deux modèles de deep learning peuvent avoir la même structure, comme un auto-encodeur standard, mais se distinguer par le nombre de couches, le nombre de neurones par couche ou les fonctions d’activation de chaque neurone.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Types d’entraînement d’un modèle

Dans la plupart des contextes, l’entraînement est quasiment synonyme d’apprentissage : un data scientist entraîne, et le modèle apprend. L’apprentissage consiste à ajuster les paramètres d’un algorithme de machine learning jusqu’à ce que les sorties du modèle résultant atteignent un certain indicateur de précision ou d’utilité. Pour faciliter l’apprentissage, l’entraînement implique la collecte de données d’entraînement et l’ajustement des hyperparamètres, par exemple le choix d’une fonction de perte, la définition du taux de mise à jour des paramètres ou la modification de l’architecture d’un réseau de neurones.

Les modèles d’IA relèvent généralement de l’un de ces trois paradigmes de machine learning : apprentissage supervisé, apprentissage non supervisé ou apprentissage par renforcement. À chaque type de machine learning ses propres cas d’utilisation, hyperparamètres, algorithmes et processus d’entraînement.

  • L’apprentissage supervisé est utilisé lorsqu’un modèle est entraîné pour prédire la sortie « correcte » d’une entrée. Il s’applique aux tâches qui nécessitent un certain degré de précision par rapport à une « vérité terrain » externe, telle que la classification ou la régression.

  • L’apprentissage non supervisé est utilisé pour entraîner un modèle à discerner des schémas et corrélations intrinsèques dans les données. Contrairement à l’apprentissage supervisé, l’apprentissage non supervisé ne suppose pas l’existence d’une vérité terrain externe avec laquelle ses sorties devraient être comparées.

  • L’apprentissage par renforcement est utilisé lorsqu’un modèle est entraîné pour évaluer son environnement et entreprendre l’action qui lui fera récolter la meilleure récompense.

Il convient de noter que les définitions et les distinctions entre chaque paradigme de machine learning ne sont pas toujours formelles ou absolues. Par exemple, l’apprentissage auto-supervisé (SSL) peut facilement être classé comme apprentissage supervisé ou non supervisé, en fonction de l’aspect de la définition sur lequel on se focalise. L’apprentissage semi-supervisé combine l’apprentissage non supervisé et l’apprentissage supervisé.

Il convient également de noter que plusieurs types de machine learning peuvent parfois être utilisés pour entraîner un seul système d’IA. Par exemple, les grands modèles de langage (LLM) utilisés dans les applications conversationnelles telles que les chatbots font généralement l’objet d’un préentraînement auto-supervisé, suivi d’un réglage fin supervisé et, par la suite, d’un apprentissage par renforcement basé sur les commentaires humains (RLHF).

Apprentissage supervisé

En tant que principale forme d’entraînement des réseaux de neurones qui constituent les modèles d’apprentissage profond, l’apprentissage supervisé est utilisé dans la plupart des modèles d’IA de pointe d’aujourd’hui. L’apprentissage supervisé est le principal paradigme d’entraînement pour les tâches qui exigent de la précision, telles que la classification ou la régression. 

Pour améliorer la précision d’un modèle, il faut comparer les prévisions qu’il produit en sortie pour une entrée spécifique aux prévisions « correctes » pour cette entrée, ce que l’on appelle généralement la « vérité terrain ». Dans l’apprentissage supervisé conventionnel, cette vérité terrain est fournie par des paires de données étiquetées. Par exemple, les données d’entraînement des modèles de détection d’objets associent des images brutes (l’entrée) à des versions annotées des images indiquant la localisation et la classification de chaque objet (la sortie).

Comme cette méthode d’entraînement nécessite une intervention humaine pour fournir la vérité terrain, on parle dans ce cas d’apprentissage « supervisé ». Mais la caractéristique distinctive de l’apprentissage supervisé n’est pas l’implication humaine, il s’agit plutôt de l’utilisation d’une vérité terrain et de la réduction d’une fonction de perte qui mesure la divergence du modèle par rapport à cette dernière. Cette distinction est devenue importante avec l’arrivée de techniques d’apprentissage innovantes permettant l’inférence implicite de « pseudo-étiquettes » à partir de données non étiquetées.

Pour s’adapter à une notion plus polyvalente de l’apprentissage supervisé, la terminologie moderne du ML utilise les termes « supervision » ou « signaux de supervision » pour désigner toute source de vérité terrain. Dans l’apprentissage auto-supervisé, qui est nommément « non supervisé » dans la mesure où il utilise des données non étiquetées, les signaux de supervision sont dérivés de la structure des données non étiquetées elles-mêmes. Par exemple, les LLM sont préentraînés via un apprentissage auto-supervisé en prédisant les mots masqués dans des échantillons de texte, le texte original servant de vérité terrain.

Apprentissage non supervisé

Contrairement à l’apprentissage supervisé, l’apprentissage non supervisé ne suppose pas la préexistence de réponses « correctes » et n’implique donc pas de signaux de supervision ou de fonctions de perte conventionnelles. Les algorithmes d’apprentissage non supervisé cherchent à découvrir des schémas intrinsèques dans des données non étiquetées, tels que des similitudes, des corrélations ou des regroupements potentiels, et sont particulièrement utiles lorsque ces schémas ne sont pas nécessairement apparents pour des observateurs humains.

Les catégories les plus répandues d’algorithmes d’apprentissage non supervisé sont les suivantes :

  • Les algorithmes de clustering partitionnent les points de données non étiquetés en « clusters », ou regroupements, selon leur proximité ou leur similarité les uns par rapport aux autres. Par exemple, le clustering k-means, un algorithme de clustering populaire, est utilisé dans la segmentation du marché pour répartir les clients ayant des attributs similaires en k groupes.

  • Les algorithmes d’association distinguent les corrélations, entre une action particulière et certaines conditions, par exemple. Les entreprises de commerce électronique comme Amazon utilisent par exemple des modèles d’association non supervisés pour alimenter les moteurs de recommandation.

  • Les algorithmes de réduction de dimensionnalité sont conçus pour réduire la complexité des données en les représentant avec un plus petit nombre de caractéristiques, c’est-à-dire en les représentant dans un nombre de dimensions réduit, tout en préservant leurs caractéristiques significatives. Ils s’appliquent à plusieurs cas d’utilisation, notamment la compression des données, la visualisation des données et l’ingénierie des caractéristiques.

Comme leur nom l’indique, les algorithmes d’apprentissage non supervisé peuvent être largement compris comme des algorithmes qui « s’optimisent eux-mêmes ». Par exemple, cette animation du professeur Andrey Shabalin, Ph.D., de l’Université de l’Utah, montre comment un algorithme de clustering k-means optimise le centroïde de chaque cluster de manière itérative.

Ainsi, l’entraînement des modèles d’IA qui utilisent des algorithmes d’apprentissage non supervisé est généralement une question d’optimisation des hyperparamètres. Par exemple, dans un algorithme de clustering, le nombre idéal de clusters (k) n’est pas toujours évident à déterminer, et une expérimentation manuelle peut être nécessaire pour obtenir des résultats optimaux.

Apprentissage par renforcement

Alors que l’apprentissage supervisé entraîne les modèles en les optimisant pour les faire correspondre à des exemples idéaux et que les algorithmes d’apprentissage non supervisé s’adaptent eux-mêmes à un jeu de données, les modèles d’apprentissage par renforcement sont entraînés de manière holistique par essais et erreurs. Les problèmes de renforcement n’impliquent pas une seule « bonne » réponse. Ils impliquent plutôt de « bonnes » et de « mauvaises » décisions (ou peut-être neutres).

À la place des paires indépendantes de données entrée-sortie utilisées dans l’apprentissage supervisé, l’apprentissage par renforcement (RL) utilise des tuples de données état-action-récompense interdépendants. Le cadre mathématique de l’apprentissage par renforcement repose principalement sur les composants suivants :

  • L’espace d’état contient toutes les informations disponibles en rapport avec les décisions que le modèle pourrait prendre. Cet espace change généralement à chaque action effectuée par le modèle.

  • L’espace d’action contient toutes les décisions que le modèle est autorisé à prendre à un moment donné. Dans un jeu de plateau, l’espace d’action comprend tous les déplacements autorisés à ce moment-là. Dans la génération de texte, l’espace d’action comprend l’ensemble du « vocabulaire » de tokens accessible au LLM.
  • La fonction de récompense détermine les commentaires positifs (ou négatifs) à fournir au modèle à la suite de chaque action sous forme de signal de récompense : une quantification scalaire de ces commentaires. Par exemple, lors de l’entraînement d’un programme d’échecs avec apprentissage par renforcement, une fonction de récompense peut encourager les déplacements qui augmentent la probabilité de victoire et décourager les déplacements qui la réduisent. Lors de l’entraînement d’un véhicule autonome, une fonction de récompense pourrait décourager les manœuvres qui enfreignent le Code la route ou qui diminuent la probabilité de leur sûreté.

  • Une politique désigne le « processus de pensée » qui oriente le comportement d’un agent RL. Mathématiquement parlant, une politique (π) est une fonction qui prend un état (s) en entrée et renvoie une action (a) :  π(s)a.

L’objectif d’un algorithme RL est d’optimiser une politique afin d’obtenir une récompense maximale. Dans l’apprentissage par renforcement profond, la politique est représentée sous la forme d’un réseau de neurones dont les paramètres sont continuellement mis à jour pour maximiser la fonction de récompense (plutôt que de minimiser une fonction de perte).

Comment entraîner un modèle de machine learning

Le cycle de développement d’un modèle comprend plusieurs processus, dont certains sont répétés de manière cyclique et itérative jusqu’à l’obtention de résultats satisfaisants.

Bien que l’apprentissage par renforcement, l’apprentissage supervisé et l’apprentissage non supervisé présentent tous des éléments d’entraînement propres à leur paradigme, le workflow d’entraînement général d’un modèle comprend habituellement les étapes suivantes :

  • Sélection du modèle

  • Collecte des données

  • Préparation des données

  • Sélection des hyperparamètres

  • Performance sur les données d’entraînement

  • Calcul de la perte (ou de la récompense)

  • Optimisation des paramètres 

  • Évaluation du modèle

Sélection du modèle

La sélection du bon algorithme (ou de la bonne architecture de réseau de neurones) ne dépend pas uniquement du problème à résoudre et des types de données que le modèle utilisera. Le type de modèle idéal dépend également de la priorité que vous souhaitez donner à sa rapidité et à son efficacité par rapport à sa précision et à ses performances, ainsi que du budget et des ressources matérielles ou computationnelles dont vous disposez. Par exemple, l’entraînement ou l’affinage d’un LLM nécessite souvent plusieurs processeurs graphiques (GPU).

Collecte des données

Il n’est pas si simple d’obtenir des données d’entraînement de haute qualité pour votre cas d’utilisation, en particulier pour les modèles de deep learning qui nécessitent souvent des milliers, voire des millions d’exemples pour un entraînement adéquat. Bien qu’un pipeline de données propriétaires offre des possibilités uniques de personnalisation et confère un avantage concurrentiel, il existe des jeux de données open source réputés adaptés à la plupart des domaines et des tâches. Dans certains domaines, en particulier le traitement automatique du langage naturel (NLP), la génération de données synthétiques constitue une option de plus en plus viable.

Préparation des données

Pour être utilisées pour l’entraînement, les données brutes, en particulier lorsqu’elles sont collectées directement ou compilées à partir de plusieurs sources de données, nécessitent généralement un prétraitement, qui peut inclure le nettoyage des données, la normalisation des valeurs et la standardisation du formatage. De nombreux services permettent d’automatiser ce processus en totalité ou en partie, comme Docling, un outil open source qui convertit les PDF et autres formats de fichiers en texte plus lisible par les machines tout en conservant leurs éléments structurels importants.

Pour l’apprentissage supervisé, les données doivent être étiquetées et parfois annotées avec beaucoup de détails. Par exemple, les images utilisées pour entraîner des modèles de segmentation d’image doivent être étiquetées au niveau du pixel. Cet étiquetage peut nécessiter beaucoup de temps et de travail, ce qui doit être pris en compte dans le calendrier et le budget.

Sélection des hyperparamètres

Même une fois l’architecture ou l’algorithme du modèle défini, vous aurez encore d’autres choix à faire. Les algorithmes de ML conventionnels sont rarement universels, et les réseaux de neurones sont encore moins standardisés. La sélection des bons hyperparamètres, c’est-à-dire des éléments modulaires de l’algorithme hors optimisation des paramètres, est essentielle pour un entraînement efficace et réussi.

Lorsque l’entraînement ne se déroule pas de manière satisfaisante, ou lorsque vous travaillez avec des algorithmes d’apprentissage non supervisé ou des algorithmes d’apprentissage supervisé non paramétriques tels que les decision trees, les performances du modèle peuvent être ajustées et améliorées grâce au réglage des hyperparamètres. Quelques tentatives par essais et erreurs peuvent être nécessaires pour obtenir le taux d’apprentissage, la taille de lot, la fonction de perte (et les termes de régularisation) ou l’algorithme d’optimisation optimaux.

L’un de ces paramètres est l’initialisation des paramètres apprenables. Ils sont généralement randomisés, mais même la randomisation des paramètres implique plusieurs stratégies. Les paramètres initiaux optimaux peuvent également être « appris » grâce à une technique appelée méta-apprentissage.

Performances sur les données d’entraînement

Une fois les paramètres initiaux et les hyperparamètres définis, le modèle traite un lot d’exemples de données d’entrée tirés du jeu de données d’entraînement. Étant donné que les paramètres initiaux sont aléatoires, le modèle ne produit généralement pas encore de « bonnes » sorties. L’objectif de la première itération d’entraînement est simplement d’établir une base de référence à optimiser par la suite. La taille du lot, c’est-à-dire le nombre d’exemples qui sont traités dans chaque « lot » avant de calculer les pertes et d’optimiser les paramètres, est elle-même un hyperparamètre important.

Il existe de nombreux cadres open source permettant de configurer et d’exécuter les modèles de machine learning pour l’entraînement, tels que PyTorch, Keras ou TensorFlow. La plupart fonctionnent en Python ou en JavaScript et, étant donné qu’il s’agit de projets communautaires, ils proposent de nombreuses bibliothèques de tutoriels pour les débutants.

Calcul de la perte (ou de la récompense)

À mesure que votre modèle traite les exemples d’entraînement, la fonction de perte que vous avez choisie suit l’écart entre les sorties du modèle et les mises à jour « correctes » pour chaque entrée. Dans l’apprentissage profond, où les modèles sont des réseaux de neurones incluant diverses équations imbriquées les unes dans les autres, la rétropropagation est utilisée pour calculer la contribution de chaque nœud du réseau de neurones à la perte globale.

Dans l’apprentissage supervisé, l’objectif formel de l’entraînement est généralement de minimiser cette fonction de perte. Certaines architectures de modèles, comme les auto-encodeurs variationnels (VAE), reformulent plutôt le problème en termes de maximisation d’un substitut (proxy) de la fonction de perte. Les algorithmes RL cherchent généralement à maximiser une fonction de récompense et parfois simultanément à minimiser un terme de régularisation qui pénalise les comportements non désirés.

Optimisation des paramètres

L’optimisation d’un algorithme de ML est généralement effectuée par un algorithme distinct. En mathématiques, un algorithme d’optimisation est conçu pour minimiser ou maximiser une autre fonction (dans ce cas, une fonction de perte ou une fonction de récompense) en déterminant les valeurs optimales pour les variables de cette fonction. En ML, ces variables sont les poids et les biais dans l’algorithme ou entre les différents nœuds d’un réseau de neurones.

L’algorithme d’optimisation idéal dépend du type de modèle entraîné. De nombreux algorithmes de ML, et en particulier les modèles basés sur des réseaux de neurones, utilisent des variantes de la descente de gradient. Certains algorithmes comportant des fonctions quadratiques, tels que les machines à vecteurs de support (SVM), pourraient être mieux traités par la programmation quadratique. Les algorithmes de régression linéaire sont généralement optimisés par les algorithmes des moindres carrés. L’apprentissage par renforcement possède ses propres algorithmes d’optimisation, tels que l’optimisation de politique proximale (PPO), l’optimisation directe de la politique (DPO) ou l’Advantage actor-critic (A2C). 

Cette séquence d’étapes d’entraînement (réglage des hyperparamètres, exécution du modèle sur un lot de données d’entraînement, calcul de la perte et optimisation des paramètres) est répétée sur plusieurs itérations jusqu’à ce que la perte soit suffisamment réduite.

Évaluation du modèle

D’excellentes performances sur les données d’entraînement ne constituent pas en elles-mêmes une preuve concluante de la réussite de l’entraînement du modèle et ne signifient pas qu’il est prêt à être déployé dans le monde réel. Il faut veiller à éviter le surajustement : quand le modèle mémorise les données d’entraînement, mais qu’il ne se généralise pas bien sur de nouvelles données (ce qui va à l’encontre de l’objectif de l’entraînement). Le surajustement peut être considéré comme l’équivalent machine learning de « l’entraînement pour réussir le test ».

Pour éviter le surajustement, la pratique standard consiste à mettre de côté une partie du jeu de données d’apprentissage dans un processus appelé validation croisée. Ce processus permet de tester le modèle sur de nouvelles données qu’il n’a pas vues, et de s’assurer qu’il a été correctement entraîné.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct