Que sont les paramètres de modèle ?

Que sont les paramètres de modèle ?

Les paramètres de modèle sont les valeurs apprises dans un modèle de machine learning qui déterminent comment il associe les données d’entrée aux sorties, telles que le texte généré ou une classification prédite. L’objectif d’un algorithme de machine learning est d’ajuster les paramètres jusqu’à ce que les productions d’un modèle d’intelligence artificielle (IA)s’alignent étroitement sur les résultats.

Les valeurs de ces paramètres déterminent les prédictions d’un modèle et, en fin de compte, ses performances pour une tâche donnée. Le nombre de paramètres d’un modèle influence directement la capacité du modèle à capturer des schémas sur plusieurs points de données. Les grands modèles, tels que ceux utilisés dans l’IA générative, peuvent avoir des milliards de paramètres, ce qui leur permet de générer des résultats très sophistiqués. Un trop grand nombre de paramètres permet aux modèles de capturer plus précisément des schémas de données plus nuancés, mais un trop grand nombre de paramètres pose des risques de surajustement.

Différents algorithmes de machine learning ont différents types de paramètres. Par exemple, les modèles de régression ont des coefficients, les réseaux neuronaux ont des poids et des biais, et certains algorithmes, comme les machines à vecteurs de support ou les modèles d'espace d'état, ont des types de paramètres uniques.

Les paramètres du modèle, les variables apprises pendant l’entraînement, ne doivent pas être confondus avec les hyperparamètres, qui sont définis à l’avance. Les deux types de paramètres influencent les performances et le comportement d'un modèle, mais de manière très différente. 

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Paramètres du modèle simplifiés

Les paramètres de modèle sont présents dans les modèles simples, y compris dans le modèle mathématique le plus simple possible, qui décrit une quantité évoluant à un rythme constant.

Régression linéaire

Pour déterminer l'impact de la superficie en mètres carrés sur le prix d'une maison, on peut utiliser un modèle simple de régression linéaire qui utilise l'équation suivante :y=mx+b m (la dérivée) et b (l’ordonnée à l’origine) sont des paramètres. En les ajustant, la ligne résultante se décale et s'oriente jusqu'à ce qu'elle corresponde le mieux aux données.

Classification

Un exemple un peu plus complexe pourrait être l'utilisation d'un modèle de régression logistique pour déterminer si une maison se vendra ou non en fonction du nombre de jours où elle est sur le marché.

La régression logistique utilise la formule :  p=11+e-(wx+b) , où p = la « probabilité de vente » et x = « jours de commercialisation ». Encore une fois, w et b sont des paramètres que le modèle « apprend ». L’équation est devenue un peu plus complexe, mais il n’y a toujours que 2 paramètres en jeu.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Types de paramètres de modèle

Dans le machine learning, les paramètres de modèle se classent principalement en deux types : les pondérations et les biais. Dans l’exemple d’un modèle de régression linéaire simple, y=mx+b , la pondération correspond à la pente m, qui contrôle l'intensité avec laquelle l'entrée influence la sortie. Plus la pondération est importante, plus l'impact de l'entrée est significatif. Le biais correspond à l’ordonnée à l’origine b. Cela permet au modèle de déplacer toute la ligne vers le haut ou vers le bas.

Pondérations

Les pondérations sont les boutons de contrôle ou les paramètres fondamentaux d’un modèle. Elles déterminent comment un modèle évalue les nouvelles données et fait des prédictions.

Dans les modèles de régression linéaire, les pondérations déterminent l’influence relative de chaque fonctionnalité utilisées pour représenter chaque point de données d'entrée. Dans les réseaux de neurones, les pondérations déterminent l’influence relative de la production de chaque neurone sur celle de chacun des neurones de la couche suivante. 

Dans l’exemple d’un modèle qui tente de prédire si une maison se vendra en fonction de facteurs tels que le « nombre de jours de commercialisation », chacun de ces facteurs a une pondération qui reflète dans quelle mesure ce facteur affecte la probabilité de vente.

Biais

Les biais permettent aux modèles d’ajuster les sorties indépendamment des pondérations et des entrées du modèle, agissant comme des seuils ou des compensations. Les biais aident les modèles à généraliser et à capturer des schémas et des tendances plus larges dans un jeu de données. 

En conservant le modèle de vente immobilière, historiquement, environ 60 % de toutes les maisons de la région finissent par être vendues, quel que soit le nombre de jours passés sur le marché, même si une maison particulière a été mise en vente depuis longtemps ou a été peu visitée. Ce biais permet au modèle de partir d'une probabilité de base réaliste, puis de l'ajuster à la hausse ou à la baisse en fonction des autres données saisies.

Cette utilisation du « biais » est un concept distinct du biais algorithmique, dans lequel un modèle fournit des résultats discriminatoires. Le biais désigne également le type d’erreur qui résulte d’une hypothèse incorrecte du modèle sur les données et qui entraîne une divergence entre les valeurs prédites et réelles. Les deux sont sans rapport avec le biais des paramètres.

Autres paramètres

Il existe d’autres types de paramètres dans le monde du machine learning. Les modèles simples ci-dessus utilisent des pondérations et des biais, tout comme les réseaux de neurones beaucoup plus complexes, ainsi que des paramètres de gain et de changement pour la normalisation.

Les réseaux de neurones convolutifs, par exemple, disposent de filtres (également appelés noyaux), qui détectent les modèles spatiaux. Les réseaux de neurones récurrents avec une longue mémoire à court terme utilisent des paramètres de contrôle qui contrôlent le flux d'informations via le réseau. Les modèles probabilistes tels que Naive Bayes utilisent des paramètres pour définir les probabilités conditionnelles ou les propriétés des distributions de probabilité. Les machines à vecteurs de support définissent des paramètres qui positionnent et orientent des « hyperplans » afin de séparer les classes dans l'espace des caractéristiques. Les modèles d'espace d'état comportent des paramètres d'observation et de bruit.

Il s'agit d'une liste limitée d'exemples, et les paramètres des différents modèles fonctionnent de manière distincte. Cependant, dans tous les cas, les paramètres déterminent la manière dont les modèles mappent les données d'entrée aux données de sortie.

Paramètres de modèle vs hyperparamètres

Les paramètres sont essentiellement les réponses à la question que le modèle pose (par exemple, « Quelle est la meilleure dérivée possible de l'équation qui nous indiquera avec la plus grande précision quel sera le prix de la maison, en fonction de sa superficie en mètres carrés ? »)

Les hyperparamètres, quant à eux, peuvent être considérés comme les règles du jeu qui indiquent au modèle comment trouver cette réponse. Les data scientists qui entraînent le modèle s’appuient sur leur compréhension du problème pour définir des limites qui déterminent la manière dont le modèle recherchera des réponses.

Les paramètres du modèle sont internes au modèle et sont mis à jour par celui-ci à travers les itérations du processus d’apprentissage en réponse aux données d’entraînement. Le modèle met à jour les valeurs des paramètres pendant l’entraînement. Les paramètres contrôlent la façon dont un modèle réagit aux données invisibles.

Les hyperparamètres d’un modèle sont externes au modèle et définis avant l’entraînement via le réglage des hyperparamètres. Certains hyperparamètres déterminent le comportement du modèle pendant l’entraînement, comme le taux d’apprentissage pendant la descente de gradient ou le nombre d’époques du processus d’entraînement. 

D’autres hyperparamètres sont responsables de la forme et de la structure du modèle, comme le nombre d’arbres de décision dans une random forest, le nombre de clusters dans le partitionnement en k-moyennes ou le nombre de couches cachées dans un réseau neuronal

Paramètres de modèle dans les réseaux de neurones

Les modèles de machine learning peuvent être beaucoup plus complexes que les exemples précédents. Dans un réseau de neurones tel qu'un grand modèle de langage (LLM), un modèle prend des décisions d'une manière similaire à la façon dont les neurones biologiques fonctionnent de concert dans le cerveau humain. Tous les réseaux de neurones sont constitués de couches de neurones artificiels, où chaque neurone représente une fonction mathématique qui traite des nombres. En apprentissage profond, les réseaux de neurones sont constitués de nombreuses couches.

D'une couche à l'autre

Chaque neurone contrôle l’importance d’une partie du réseau qui influence l’autre. Les pondérations déterminent la force des connexions entre les neurones, c’est-à-dire dans quelle mesure la sortie d’un neurone affecte l’entrée du neurone suivant. 

Pendant l’entraînement, le réseau reçoit des entrées. Pour poursuivre l'exemple des prix immobiliers, il peut s'agir de la superficie, de l'année de construction, des données démographiques du quartier et de nombreuses autres informations.

Ces fonctionnalités d'entrée sont transmises à la première couche de neurones. Chaque entrée est multipliée par une pondération, qui correspond à la meilleure estimation du réseau quant à l'importance de ce neurone, et un biais est ajouté pour améliorer la flexibilité, ce qui confère aux neurones une certaine indépendance par rapport à l'influence de la somme pondérée des entrées provenant des neurones de la couche précédente. Une fonction d'activation détermine l'intensité avec laquelle ce neurone « s'active » et transmet les informations à la couche suivante en tant qu'entrée pour les fonctions d'activation de chaque neurone individuel de la couche suivante. Chacune de ces connexions entre neurones dispose de sa propre pondération.

Les pondérations forment une matrice, les biais forment un vecteur et la couche calcule des combinaisons linéaires d'entrées + biais, puis transmet le résultat à une fonction d'activation, telle qu'une fonction sigmoïde, tanh, ReLU ou softmax. Cette fonction consiste à introduire la non-linéarité, qui permet au réseau d’apprendre et de modéliser des modèles complexes au lieu de simples relations linéaires.

Les données transitent par les couches « cachées » suivantes. La première couche cachée peut combiner la superficie de la maison et le nombre de chambres pour obtenir la « surface habitable totale ». Une autre niveau pourrait combiner la situation géographique du foyer et la note de son district scolaire pour déterminer l'« l'attractivité du quartier ». Le modèle n'a pas la capacité d'un être humain à comprendre ce qu'est l'attractivité du quartier, il se contente de reconnaître des tendances dans les chiffres de ses données d'entraînement et d'établir des corrélations.

D’une couche à l’autre, le réseau commence à « comprendre » quels modèles sont les plus pertinents. Ces couches empilées transforment des opérations simples en un réseau puissant capable d’apprendre des modèles hiérarchiques complexes.

Perte et rétropropagation

À l’étape suivante, le réseau calcule la perte (la différence entre la production du réseau et la vérité terrain, c’est-à-dire la structure des données présentes dans le jeu de données d’entraînement). Cela fournit un nombre unique représentant l'écart par rapport au modèle.

Ensuite, lors de la rétropropagation, le réseau calcule le gradient de la perte par rapport aux pondérations et aux biais, ce qui indique au réseau les paramètres qui influencent la perte et comment les ajuster pour la minimiser. Ceci se produit dans l'ordre inverse, couche par couche, à l'aide d'un algorithme de descente de gradient. Les algorithmes d’optimisation tels que la descente de gradient sont conçus pour minimiser une fonction de perte, indiquant au modèle comment modifier efficacement ses paramètres pour réduire la perte.

Les processus ci-dessus se répètent jusqu'à ce que le modèle soit capable de fournir des résultats (dans ce cas, le prix prévisionnel d'une maison) avec le niveau de performance souhaité.

L'exemple de la prévision des prix immobiliers illustre la manière dont les réseaux de neurones prennent en compte de nombreuses caractéristiques à la fois, les combinent de manière non linéaire et produisent une prévision utile. Cependant, cela aurait pu être réalisé à l'aide d'un modèle de régression linéaire plus simple. Les réseaux de neurones sont particulièrement efficaces lorsque les données sont non structurées ou lorsque les modèles traditionnels ne permettent pas de traiter des schémas trop complexes ou à trop haute dimension. Par exemple, un réseau de neurones pourrait être utilisé pour traiter des photos satellites et des données cartographiques de quartier afin de prédire le prix de vente. Un réseau de neurones peut également être entraîné pour reconnaître des termes clés dans des descriptions telles que « rue calme » ou « nouveau toit ».

Réglage fin

Une fois l'entraînement initial terminé, les modèles IA peuvent être adaptés à des tâches ou à des domaines spécifiques. L'ajustement consiste à adapter un modèle pré-entraîné à des cas d’utilisation spécifiques. Pour ce faire, les paramètres du modèle sont mis à jour via un entraînement supplémentaire sur de nouvelles données.

Autres types d'apprentissage

L’exemple ci-dessus des réseaux de neurones utilisés pour prédire les prix de l’immobilier décrit l’apprentissage supervisé, où les modèles apprennent à l’aide de données étiquetées. Dans ce contexte, le modèle reçoit à la fois des entrées et des sorties correctes. Le modèle compare ses prédictions à la vérité terrain (dans ce cas, les données étiquetées). L'ajustement se produit souvent dans un contexte supervisé.

L'apprentissage non supervisé permet aux modèles d'apprendre des paramètres en trouvant des modèles ou des structures dans des données non étiquetées, sans qu'on leur donne la « bonne réponse ». Au lieu de comparer les prédictions aux étiquettes de vérité terrain (comme dans l'apprentissage supervisé), ces modèles optimisent les objectifs qui mesurent la capacité du modèle à expliquer les données elles-mêmes. Par exemple, dans le partitionnement, les paramètres (tels que les centroïdes de cluster dans k-means) sont mis à jour de manière itérative afin que les points similaires soient regroupés plus étroitement. Dans la réduction de dimensionnalité, les paramètres sont appris en trouvant les directions qui capturent le plus de variance dans les données.

Dans l'apprentissage par renforcement, un modèle (ou un agent alimenté par un modèle) interagit avec un environnement, recevant des récompenses pour les actions correctes. Les paramètres définissent généralement une politique ou une fonction de valeur estimant la récompense attendue. Les paramètres sont mis à jour en comparant les récompenses prédites aux récompenses réelles reçues.

Validation de la performance des paramètres du modèle

L'amélioration des performances sur les données d'entraînement est l'objectif de l'entraînement, mais ce n'est pas le seul objectif. L'objectif principal est la généralisation, qui est obtenue en entraînant le modèle de manière à ce qu'il s'adapte bien à des tâches réelles qu'il n'a pas rencontrées dans ses données d'entraînement.

Il faut éviter les pièges tels que le surajustement, lorsque les paramètres capturent le bruit ou les fluctuations aléatoires dans les données d’apprentissage, conduisant à une généralisation médiocre sur les nouvelles données. Les paramètres doivent être suffisamment flexibles pour apprendre des modèles significatifs, mais pas au point de mémoriser des détails non pertinents.

Plusieurs techniques de science des données sont utilisées pour évaluer les performances des modèles. La validation croisée est une technique d'évaluation de modèle dans laquelle le jeu de données est divisé en plusieurs parties (plis). Le modèle est entraîné sur certains plis et testé sur le pli restant, et ce processus est répété jusqu'à ce que chaque pli ait été utilisé comme ensemble de test. Cela réduit le risque de surajustement, puisque le modèle est testé sur plusieurs partitions des données. La validation croisée ne modifie pas directement les paramètres, mais elle teste dans quelle mesure les paramètres appris se généralisent à des données non vues. Si les performances sont cohérentes sur tous les plans, les paramètres sont probablement bien optimisés. Dans le cas contraire, les paramètres du modèle pourraient être trop adaptés au sous-ensemble des données d'apprentissage qu'il a déjà observé. Un entraînement supplémentaire sur des données plus diverses peut améliorer la généralisation.

Une autre technique est le bootstrapping, une méthode statistique qui consiste à créer de nouveaux jeux de données en effectuant un échantillonnage aléatoire avec remplacement à partir du jeu de données original. Le bootstrapping produit de nombreux ensembles de paramètres, car chaque échantillon bootstrap est légèrement différent. En examinant la variation entre ces modèles bootstrappés, on peut mesurer la fiabilité des paramètres lorsqu'ils sont entraînés sur des données légèrement différentes.

Les praticiens s’appuient également sur des indicateurs qui quantifient la performance des modèles, telles que l’exactitude, la précision, le rappel ou l’erreur quadratique moyenne. Ils fournissent des commentaires objectifs indiquant si les paramètres actuels déplacent le modèle dans la bonne direction.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct