Qu’est-ce que le réglage de modèle ?

Vue de dos d’un ingénieur du son manipulant une table de mixage

Auteurs

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce que le réglage de modèle ?

Le réglage de modèle optimise les hyperparamètres d’un modèle de machine learning afin d’obtenir les meilleures performances d’apprentissage. Le processus consiste à effectuer des ajustements pour trouver l’ensemble optimal de valeurs d’hyperparamètres, ce qui permet d’améliorer la précision, la qualité de génération et d’autres indicateurs de performance.

Comme le réglage de modèle identifie les hyperparamètres optimaux d’un modèle, il est également appelé optimisation des hyperparamètres ou réglage des hyperparamètres.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Que sont les hyperparamètres ?

Les hyperparamètres sont des variables de configuration de modèle qui ne peuvent pas être dérivées des données d’entraînement. Ces variables déterminent les principales caractéristiques et le comportement d’un modèle. Certains hyperparamètres, tels que le taux d’apprentissage, contrôlent le comportement du modèle pendant l’apprentissage. D’autres déterminent la nature du modèle lui-même, tel qu’un hyperparamètre qui définit le nombre de couches dans un réseau neuronal.

Les data scientists doivent configurer les valeurs des hyperparamètres d’un modèle de machine learning (ML) avant le début de l’entraînement. Il est essentiel de choisir à l’avance la bonne combinaison d’hyperparamètres pour réussir l’apprentissage d’un modèle ML.

Hyperparamètres et paramètres de modèle

Les paramètres du modèle, ou poids du modèle, sont des variables que les modèles d’intelligence artificielle (IA) découvrent pendant l’entraînement. Les algorithmes d’IA apprennent les relations, les modèles et les distributions sous-jacents de leurs jeux de données d’apprentissage, puis appliquent ces résultats à de nouvelles données pour faire des prédictions réussies.

Lorsqu’un algorithme de machine learning est en cours d’apprentissage, il définit et met à jour ses paramètres. Ces paramètres représentent ce qu’un modèle apprend de son jeu de données d’entraînement et changent au fil du temps à chaque itération de son algorithme d’optimisation.

Pourquoi le réglage de modèle est-il important ?

Le réglage est important car la valeur des hyperparamètres affecte directement la performance des modèles. Une bonne configuration des hyperparamètres permet aux modèles de mieux apprendre pendant l’entraînement.

Sans un bon réglage, un modèle peut devenir sujet au surapprentissage, lorsqu’il s’appuie trop étroitement sur ses données d’entraînement et ne peut pas s’adapter à de nouveaux jeux de données. D’autres défauts peuvent inclure un biais ou une variance excessive du modèle.

Chaque algorithme de machine learning a sa propre combinaison optimale d’hyperparamètres, certains ayant plus d’influence sur les performances que d’autres. Limiter le réglage du modèle à un ensemble de base des hyperparamètres les plus efficaces peut réduire le temps et les ressources informatiques nécessaires.

      Surajustement

      On parle de surapprentissage lorsqu’un modèle est trop complexe pour ses données d’entraînement. Ses hyperparamètres créent un réseau de neurones avec trop de couches ou de paramètres entraînables. Le surapprentissage consiste pour le modèle à s’adapter trop étroitement à son jeu de données d’entraînement. Un modèle en situation de surapprentissage ne peut pas s’adapter à de nouvelles données, car il est incapable de généraliser à partir de ses données d’entraînement.

      Imaginez deux élèves dans une salle de classe. L’un apprend en mémorisant des faits, l’autre en comprenant les concepts sous-jacents enseignés. Jusqu’à présent, les deux ont obtenu de bons résultats aux tests portant sur la matière du cours. Mais que se passe-t-il lorsqu’ils doivent appliquer leurs connaissances à de nouveaux sujets ?

      L’étudiant capable de généraliser réussira le transfert de ce qu’il a appris, tandis que celui qui ne s’appuie que sur sa mémoire est susceptible de rencontrer des difficultés. En effet, ce dernier est en situation de « surapprentissage », c’est-à-dire que sa compréhension est limitée aux spécificités du contenu du cours, sans en saisir les principes de base.

      Biais

      Le biais est l’écart entre les prédictions d’un modèle et les résultats réels. Si le biais peut provenir de jeux de données d’entraînement imparfaits, il résulte également d’un réglage sous-optimal du modèle ; le modèle n’est pas capable d’apprendre correctement, même lorsque ses données d’entraînement sont viables.

      Les modèles présentant un biais élevé ignorent les subtilités des données d’entraînement et peuvent ne pas générer de prédictions précises pendant l’apprentissage. Les algorithmes plus simples, tels que la régression linéaire, sont plus sujets à un biais élevé car ils ne peuvent pas saisir des relations plus complexes dans leurs données d’entraînement.

      Le choix du bon algorithme pour une tâche spécifique est la première étape vers l’obtention de bonnes performances, avant même le début de l’ajustement du modèle.

      Variance

      La variance est une représentation inverse de la cohérence des prédictions d’un modèle. Si la variance est élevée, le modèle aura des prédictions moins cohérentes sur les données invisibles, même s’ils fonctionne souvent bien avec les jeux de données d’entraînement. Les modèles présentant une variance élevée souffrent de surapprentissage : ils sont incapables de transférer ce qu’ils ont appris des données d’entraînement sur de nouvelles données.

      La régularisation est une technique qui réduit le surapprentissage en déplaçant le rapport biais-variance en faveur d’un biais plus important. Un bon réglage du modèle permet de trouver le juste équilibre entre biais et variance pour obtenir des prédictions optimales dans le monde réel.

      Mixture of Experts | 28 août, épisode 70

      Décryptage de l’IA : Tour d’horizon hebdomadaire

      Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

      Réglage des modèles : comment ça marche ?

      Le réglage du modèle consiste à découvrir la configuration d’hyperparamètres qui donne le meilleur résultat d’apprentissage. Parfois, notamment lors de la conception de modèles plus petits et plus simples, les data scientists peuvent configurer manuellement les hyperparamètres à l’avance. Mais les transformeurs et autres modèles complexes peuvent avoir des milliers de combinaisons d’hyperparamètres possibles.

      Face à un si grand nombre d’options, les data scientists peuvent limiter l’espace de recherche d’hyperparamètres pour couvrir les combinaisons les plus susceptibles de produire des résultats optimaux. Ils peuvent également utiliser des méthodes automatisées pour découvrir de manière algorithmique les hyperparamètres optimaux pour le cas d’utilisation prévu.

        Méthodes de réglage des modèles

        Les méthodes de réglage des modèles les plus courantes sont les suivantes :

        • Recherche par grille

        • Recherche aléatoire

        • Optimisation bayésienne

        • Hyperbande

        Recherche par grille

        La recherche en grille est la méthode d’optimisation des modèles par « force brute ». Les data scientists créent un espace de recherche qui comporte toutes les valeurs d’hyperparamètres possibles. L’algorithme de recherche en grille produit ensuite toutes les combinaisons d’hyperparamètres disponibles. Le modèle est entraîné et validé pour chaque combinaison d’hyperparamètres, le modèle le plus performant étant sélectionné pour l’utilisation.

        Parce qu’elle teste toutes les valeurs d’hyperparamètres possibles au lieu d’un sous-ensemble plus petit, la recherche par grille est une méthode de réglage complète. L’inconvénient de ce champ d’application élargi est que cette méthode prend du temps et nécessite beaucoup de ressources.

          Recherche aléatoire

          Plutôt que de tester toutes les configurations d’hyperparamètres possibles, les algorithmes de recherche aléatoire choisissent des valeurs d’hyperparamètres à partir d’une distribution statistique d’options potentielles. Les data scientists compilent les valeurs d’hyperparamètres les plus probables, augmentant ainsi les chances de l’algorithme de sélectionner une option viable.

          La recherche aléatoire est plus rapide et plus facile à mettre en œuvre que la recherche par grille. Mais comme toutes les combinaisons ne sont pas testées, il n’y a aucune garantie que la meilleure configuration d’hyperparamètres soit trouvée.

          Optimisation bayésienne

          Contrairement aux recherches par grille et aléatoires, l’optimisation bayésienne sélectionne les valeurs d’hyperparamètres en fonction des résultats des tentatives précédentes. L’algorithme se base sur les résultats des tests effectués sur les valeurs d’hyperparamètres antérieures pour prédire les valeurs susceptibles de conduire à de meilleurs résultats.

          L’optimisation bayésienne consiste à construire un modèle probabiliste de la fonction objective. Cette fonction de substitution devient plus efficace au fil du temps à mesure que ses résultats s’améliorent, ce qui évite d’allouer des ressources à des valeurs d’hyperparamètres moins performantes tout en se concentrant sur la configuration optimale.

          La technique d’optimisation d’un modèle basée sur des séries de tests antérieurs est appelée optimisation basée sur un modèle séquentiel (SMBO).

            Hyperbande

            L’hyperbande améliore le workflow de recherche aléatoire en se focalisant sur les configurations d’hyperparamètres prometteuses tout en abandonnant les recherches moins viables. À chaque itération de test, l’algorithme d’hyperbande supprime la moitié des configurations testées les moins performantes.

            L’approche de « halving successif » d’Hyperband permet de se concentrer sur les configurations les plus prometteuses jusqu’à ce que la meilleure soit découverte dans le pool initial de candidats.

            Réglage et entraînement des modèles

            Alors que le réglage du modèle consiste à découvrir les hyperparamètres optimaux, l’entraînement du modèle consiste à apprendre à un algorithme de machine learning à identifier des modèles dans son jeu de données d’entraînement et à faire des prédictions précises sur de nouvelles données.

            Le processus d’entraînement consiste à utiliser un algorithme d’optimisation pour minimiser une fonction de perte, ou fonction objective, qui mesure l’écart entre les prévisions du modèle et les valeurs réelles. L’objectif est d’identifier la meilleure combinaison poids-biais pour obtenir la valeur de fonction objective la plus faible possible. L’algorithme d’optimisation met à jour régulièrement les poids du modèle pendant l’entraînement.

            Les algorithmes d’optimisation par descente de gradient visent à diminuer le gradient de la fonction de perte pour découvrir sa valeur minimale : le point auquel le modèle est le plus précis. Un minimum local est une valeur minimale dans une région donnée, mais pas nécessairement le minimum global de la fonction, c’est-à-dire son minimum absolu.

            Il n’est pas toujours nécessaire d’identifier le minimum global de la fonction de perte. Un modèle est dit convergent lorsque sa fonction de perte est réduite au minimum.

            Validation croisée, tests et réentraînement

            Après l’apprentissage, les modèles sont soumis à une validation croisée, qui consiste à vérifier les résultats de l’apprentissage avec une autre partie des données d’entraînement. Les prédictions du modèle sont comparées aux valeurs réelles des données de validation. Le modèle le plus performant passe ensuite à la phase de test, où ses prédictions sont à nouveau examinées pour en vérifier l’exactitude avant le déploiement. La validation croisée et les tests sont essentiels pour l’évaluation des grands modèles de langage (LLM).

            Composante du cycle de vie de l’IA MLOps (opérations de machine learning), le réentraînement consiste à renouveler l’entraînement des modèles en continu, de manière autonome, afin de maintenir un niveau de performance optimal.

            Réglage du modèle et réglage fin

            Le réglage du modèle identifie les meilleures valeurs d’hyperparamètres pour l’apprentissage, tandis que le réglage fin est le processus qui consiste à perfectionner un modèle de fondation pré-entraîné pour des tâches spécifiques en aval. Le réglage fin est un type d’apprentissage par transfert, c’est-à-dire l’adaptation de l’apprentissage préexistant d’un modèle à de nouvelles tâches.

            Le réglage fin consiste à entraîner à nouveau un modèle pré-entraîné, cette fois-ci sur un jeu de données plus petit et plus spécialisé, pour répondre au cas d’utilisation prévu. Entraîner un modèle sur un petit jeu de données dès le début pose un risque de surapprentissage que l’on atténue en l’entraînant sur un jeu de données généralisé.

            Exemples d’hyperparamètres

            Si chaque algorithme possède son propre ensemble d’hyperparamètres, beaucoup sont communs à des algorithmes similaires. Voici quelques-uns des hyperparamètres courants dans les réseaux neuronaux qui alimentent les grands modèles de langage (LLM) :

            • Taux d'apprentissage

            • Diminution du taux d’apprentissage

            • Époques

            • Taille des lots

            • Momentum

            • Nombre de couches masquées

            • Nœuds par couche

            • Fonction d’activation

            Taux d'apprentissage

            Le taux d’apprentissage détermine la vitesse à laquelle un modèle met à jour ses poids pendant l’entraînement. Un taux d’apprentissage plus élevé signifie qu’un modèle apprend plus vite, mais au risque de dépasser le minimum local de sa fonction de perte. En revanche, un faible taux d’apprentissage peut prolonger la durée de l’entraînement, ce qui augmente les besoins en ressources et les coûts.

            Diminution du taux d’apprentissage

            La décroissance du taux d’apprentissage est un hyperparamètre qui ralentit le taux d’apprentissage d’un algorithme de ML au fil du temps. Le modèle met à jour ses paramètres plus rapidement au début, puis avec plus de nuances à mesure qu’il se rapproche de la convergence, ce qui réduit le risque de dépassement.

            Époques

            L’entraînement consiste à exposer le modèle à ses données d’entraînement plusieurs fois pour qu’il mette à jour ses pondérations de manière itérative. L’époque désigne le traitement intégral du jeu de données d’entraînement par le modèle, et l’hyperparamètre « époques » définit le nombre d’époques qui composent le processus d’entraînement.

            Taille des lots

            Les algorithmes de machine learning ne traitent pas l’intégralité de leurs jeux de données d’entraînement à chaque itération de l’algorithme d’optimisation. En effet, les données d’entraînement sont séparées en lots, les poids du modèle étant mis à jour après chaque lot. La taille du lot détermine le nombre d’échantillons de données dans chaque lot.

            Momentum

            La dynamique est la propension d’un algorithme de ML à mettre à jour ses poids dans le même sens que les mises à jour précédentes. Il s’agit de la conviction d’un algorithme dans son apprentissage. Une dynamique élevée conduit un algorithme à une convergence plus rapide au risque de contourner des minima locaux importants. En revanche, une faible dynamique peut faire hésiter un algorithme dans ses mises à jour, ce qui ralentit sa progression.

            Nombre de couches masquées

            Les réseaux neuronaux modélisent la structure du cerveau humain et contiennent plusieurs couches de neurones interconnectés, ou nœuds. Cette complexité permet aux modèles avancés, tels que les modèles de transformeur, de gérer des tâches génératives complexes. Moins il y a de couches, plus le modèle est agile ; plus il y en a, plus il est capable de réaliser des tâches complexes.

            Nœuds par couche

            Chaque couche d’un réseau de neurones comporte un nombre de nœuds prédéterminé. Au fur et à mesure que la largeur des couches augmente, la capacité du modèle à gérer des relations complexes entre les points de données s’accroît, au même titre que ses exigences en matière de calcul.

            Fonction d’activation

            La fonction d’activation est un hyperparamètre qui permet aux modèles de créer des limites non linéaires entre les groupes de données. Lorsqu’il est impossible de classer avec précision les points de données en groupes séparés par une ligne droite, l’activation offre la flexibilité nécessaire pour des divisions plus complexes.

            Un réseau neuronal sans fonction d’activation est essentiellement un modèle de régression linéaire.

            Solutions connexes
            IBM watsonx.ai

            Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

            Découvrir watsonx.ai
            Solutions d’intelligence artificielle

            Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

            Découvrir les solutions d’IA
            Conseil et services en Intelligence Artificielle (IA)

            IBM Consulting et ses services d'IA accompagnent les entreprises dans la redéfinition de leurs activités avec l'intelligence artificielle pour mener leur transformation.

            Découvrir les services d’IA
            Passer à l’étape suivante

            Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

            Découvrir watsonx.ai Réserver une démo en direct