Que sont les paramètres de modèle ?

05 mai 2025

Temps de lecture

Auteurs

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

Que sont les paramètres de modèle ?

Les paramètres de modèle sont les variables de configuration internes d’un modèle de machine learning qui contrôlent la façon dont il traite les données et établit des prévisions. Les valeurs des paramètres peuvent déterminer si les sorties d’un modèle d’intelligence artificielle (IA) reflètent les résultats réels, c’est-à-dire comment le modèle transforme l’entrée en sorties telles que du contenu texte ou image généré. 

Les algorithmes de machine learning estiment la valeur des paramètres d’un modèle pendant l’entraînement du modèle. L’algorithme d’apprentissage ou d’optimisation ajuste les paramètres pour une performance optimale du modèle en minimisant une fonction d’erreur, de coût ou de perte

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Paramètres de modèle et hyperparamètres

Les paramètres de modèle sont souvent confondus avec les hyperparamètres. Les deux types de paramètres contrôlent le comportement d’un modèle, mais avec des différences notables. 

Les paramètres de modèle sont internes à un modèle et estimés par celui-ci au cours du processus d’apprentissage en réponse aux données d’entraînement. L’algorithme d’apprentissage du modèle met à jour les valeurs des paramètres pendant l’entraînement. Les paramètres contrôlent la façon dont un modèle réagit aux données inconnues, par exemple, la façon dont un modèle de prédiction effectue des prédictions après le déploiement. 

Les hyperparamètres d’un modèle sont externes au modèle et définis avant l’entraînement via le réglage des hyperparamètres. Certains hyperparamètres déterminent le comportement du modèle pendant l’entraînement, comme le taux d’apprentissage pendant la descente de gradient ou le nombre d’époques du processus d’entraînement. 

D’autres hyperparamètres sont responsables de la forme et de la structure du modèle, comme le nombre d’arbres de décision dans une random forest, le nombre de clusters dans le partitionnement en k-moyennes ou le nombre de couches cachées dans un réseau neuronal

Types de paramètres de modèle

Tous les modèles de deep learning ne partagent pas le même ensemble de paramètres de modèle. Les grands modèles de langage (LLM) utilisent des pondérations et des biais pour traiter les données. Les modèles de régression linéaire et les machines à vecteurs de support (SVM) ont leurs propres paramètres respectifs, tels que les coefficients de modèle linéaire ou les vecteurs de support. 

Pondérations

Les pondérations sont les boutons de contrôle ou les paramètres fondamentaux d’un modèle. Elles déterminent comment un modèle évalue les nouvelles données et fait des prédictions. Elles constituent les paramètres de base d’un LLM et sont apprises lors de l’entraînement. Les LLM peuvent compter des millions, voire des milliards de pondérations. 

Les poids sont des variables numériques qui définissent l’importance relative des caractéristiques du jeu de données pour la sortie. Dans un réseau neuronal, les poids déterminent la force des connexions entre les neurones, c’est-à-dire dans quelle mesure la sortie d’un neurone affecte l’entrée du neurone suivant. 

Biais

Les biais permettent aux réseaux neuronaux d’ajuster les sorties indépendamment des poids et des entrées du modèle. Alors qu’un poids est une configuration variable, les biais sont des constantes qui agissent comme des seuils ou des décalages. Les biais aident les modèles à généraliser et à capturer des schémas et des tendances plus larges dans un jeu de données. 

Les réseaux neuronaux utilisent une fonction d’activation pour déterminer si un neurone s’active et génère une sortie. Les biais ajustent cette fonction, ajoutant de la flexibilité en permettant aux neurones de s’activer, que la somme de leurs entrées soit suffisante ou pas pour déclencher une activation. 

Les paramètres de biais sont un concept distinct du biais algorithmique, dans lequel un modèle produit des résultats discriminatoires. Le biais désigne également le type d’erreur qui résulte d’une hypothèse incorrecte du modèle sur les données et qui entraîne une divergence entre les valeurs prédites et réelles. 

Types d’hyperparamètres

Dans la mesure où ils façonnent le processus d’entraînement, de nombreux hyperparamètres affectent la configuration finale des paramètres d’un modèle. En voici quelques exemples : 

  • Epoch : le nombre d’itérations pendant lesquelles l’ensemble du jeu de données d’entraînement passe dans le modèle pendant l’entraînement.

  • Taille du lot : la quantité de données d’entraînement à chaque cycle d’entraînement. Les modèles mettent à jour leurs poids et leurs biais de façon itérative après chaque lot. 

  • Taux d’apprentissage : mesure dans laquelle un modèle peut mettre à jour ses pondérations. 

  • Momentum : tendance d’un modèle à actualiser ses poids dans la même direction que les mises à jour précédentes, au lieu de s’inverser dans l’autre sens.

Mixture of Experts | 25 avril, épisode 52

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Comment les paramètres affectent-ils les performances du modèle ?

Les paramètres jouent un rôle crucial dans la performance du modèle. Ils influencent la façon dont les neurones d’un réseau traitent les données et génèrent des sorties. En science des données, les données d’entrée sont composées de qualités et d’attributs appelés caractéristiques. Mais les caractéristiques ne sont pas toutes pertinentes pour comprendre les données et faire de bonnes prédictions. 

Considérons un modèle conçu pour classer les animaux en mammifères ou en poissons. Les mammifères et les poissons étant tous deux des vertébrés, la caractéristique « vertébré » n’affecte pas les prédictions du modèle. À l’inverse, parce que tous les poissons ont des branchies et qu’aucun mammifère n’en a, la caractéristique « a des branchies » est beaucoup plus importante pour le modèle. 

Les poids correspondant à des informations plus pertinentes créent des connexions plus fortes entre les neurones concernés. À leur tour, des connexions plus fortes augmentent l’importance des informations transmises entre ces neurones par rapport aux autres. 

Les paramètres affectent également la performance du modèle d’un point de vue pratique : 

  • Il y a surajustement lorsqu’un modèle s’adapte trop étroitement à ses données d’entraînement et ne peut pas se généraliser à de nouvelles données. Le surajustement risque davantage de se produire ou de s’aggraver lorsqu’un modèle comporte un plus grand nombre de paramètres : il devient alors plus précisément adapté à un jeu de données spécifique. Les concepteurs de modèles utilisent des techniques telles que la validation croisée et la régularisation par abandon pour atténuer le surajustement

  • Les modèles qui comportent un plus grand nombre de paramètres peuvent gérer des tâches plus complexes. Le nombre accru de paramètres permet au modèle d’avoir une compréhension plus nuancée des données. Mais comme mentionné précédemment, cela peut conduire au surajustement. 

  • Un plus grand nombre de paramètres augmente la taille du modèle et nécessite davantage de ressources de calcul. Les modèles puissants qui sous-tendent les principales applications d’IA générative telles que ChatGPT comportent des milliards de paramètres et consomment d’énormes quantités d’eau et d’électricité, tout en coûtant des millions de dollars à entraîner.

Comment les paramètres de modèle sont-ils déterminés ?

Dans les approches de machine learning traditionnelles, les modèles définissent les paramètres via un processus d’entraînement en deux étapes composé de propagation avant et arrière. 

La propagation avant est le mouvement des données à travers le modèle. Les neurones reçoivent des informations, calculent les poids de ces entrées et ajoutent des biais. La fonction d’activation détermine ensuite si ces valeurs sont suffisantes pour déclencher l’activation du neurone. Si c’est le cas, le neurone s’active et transmet les sorties via le réseau. La chaîne continue jusqu’à ce que le modèle génère une sortie finale. 

La deuxième étape est la rétropropagation. Cette phase calcule l’erreur du modèle : l’écart entre sa sortie et ses valeurs du monde réel. Pour ce faire, un algorithme d’optimisation de descente de gradient mesure le gradient de la fonction de perte. Le modèle met à jour ses pondérations et ses biais en réponse au gradient, dans le but de minimiser la fonction de perte et de générer de meilleures prédictions. 

Le processus « forward-backward propagation » continue jusqu’à ce que la fonction de perte ait été minimisée avec succès, ce qui indique une performance optimale du modèle. La performance du modèle est jugée sur la base d’indicateurs de l’évaluation des LLM tels que la cohérence du texte généré.

Comment optimiser les paramètres du modèle

Les chercheurs en machine learning ont identifié une série de techniques qui peuvent aider les modèles à obtenir la meilleure configuration de paramètres. 

  • Le réglage fin permet d’adapter un modèle formé à des tâches en aval en l’entraînant à nouveau sur des jeux de données plus petits et propres à un domaine. Les modèles qui ont passé le processus de réglage fin mettent à jour suffisamment leurs paramètres pour apprendre de nouvelles tâches tout en conservant leur capacité de généralisation. 

  • La régularisation ajoute une pénalité à la fonction de perte pour éviter que le modèle ne modifie ses poids de manière trop importante. 

  • L’arrêt anticipé met fin à la validation lorsqu’un modèle ne montre plus de signes d’amélioration, ce qui permet d’économiser des ressources et de minimiser les risques de rendements décroissants. 

  • L’apprentissage par transfert encourage les modèles à appliquer leurs connaissances antérieures à de nouvelles tâches, réduisant ainsi les risques qu’ils oublient ce qu’ils ont déjà appris. 

  • L’isolation de paramètres gèle certains paramètres lors de l’entraînement des modèles pour de nouvelles tâches, ce qui l’empêche de les mettre à jour et potentiellement de perdre des connaissances antérieures. 

  • Le replay expose périodiquement un modèle à une « mémoire tampon » de données antérieures lors d’un entraînement à de nouvelles tâches. La mémoire tampon est mélangée aux nouvelles données pour actualiser la mémoire du modèle et éviter les ajustements de poids excessifs. 

  • La quantification remplace les poids d’un modèle entraîné par des valeurs moins précises, réduisant ses besoins de calcul tout en préservant les connaissances. En général, la quantification consiste à mapper des formats de haute précision à des formats de moindre précision. 

  • La validation croisée divise les données d’entraînement en sous-ensembles appelés folds, un pour l’entraînement et un pour les tests. Le processus est répété plusieurs fois avec différents regroupements de données. 

  • Le réglage des hyperparamètres consiste à optimiser les hyperparamètres d’un modèle. Des hyperparamètres correctement optimisés produisent des valeurs de paramètres de modèle optimales après l’entraînement.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct