Quels sont les paramètres LLM ?

Auteurs

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Définition des paramètres du LLM

Les paramètres LLM sont les paramètres qui contrôlent et optimisent la sortie et le comportement d’un grand modèle de langage (LLM). Les paramètres pouvant être entraînés incluent les poids et les biais, et sont configurés à mesure qu’un grand modèle de langage (LLM) apprend à partir de son jeu de données d’entraînement. Les hyperparamètres sont externes au modèle, guidant son processus d’apprentissage, déterminant sa structure et façonnant sa sortie.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Types de paramètres LLM

Les paramètres du LLM peuvent être classés en trois catégories principales : 

  • Poids 

  • Biais 

  • Hyperparamètres

Pondérations

Les pondérations sont des valeurs numériques qui représentent l’importance que le LLM attribue à une entrée spécifique. Toutes les entrées ne sont pas traitées de la même manière par les modèles IA lors de la génération de réponses. Plus le poids d’une entrée est élevé, plus elle est pertinente par rapport à la sortie du modèle. 

Les paramètres d’entraînement, tels que les pondérations, sont configurés par l’algorithme d’apprentissage d’un modèle pendant le processus d’entraînement. L’algorithme d’apprentissage mesure les performances du modèle de machine learning (ML) à l’aide d’une fonction de perte, qui tente de minimiser les erreurs en optimisant les paramètres du modèle

Dans les neural networks, les pondérations sont des multiplicateurs qui déterminent la force du signal d’une couche neuronale à la suivante. Les signaux doivent atteindre le seuil de force de la fonction d’activation pour parcourir le réseau. Ainsi, les poids affectent directement la manière dont un réseau propage les données à travers ses couches. 

La rétropropagation permet de calculer l’incidence d’une modification des valeurs de pondération sur la performance du modèle.

Biais

Comme les poids, les biais sont également configurés automatiquement lors de l’entraînement des modèles IA. Les biais sont des valeurs constantes ajoutées à la valeur d’un signal provenant des couches précédentes. Les modèles utilisent des biais pour permettre aux neurones de s’activer dans des conditions où les poids seuls pourraient ne pas être suffisants pour passer par la fonction d’activation. 

Les biais rendent les modèles plus flexibles. Les modèles peuvent apprendre des données même si les entrées pondérées n’atteignent pas le seuil d’activation. Comme les pondérations, les biais sont ajustés par rétropropagation pendant l’entraînement afin d’optimiser la performance du modèle et de minimiser les erreurs. 

La combinaison des pondérations et des biais dans les LLM peut donner lieu à des modèles comportant des milliards de paramètres. Au cours du processus de réglage fin, lorsqu’un LLM pré-entraîné est entraîné pour les tâches en aval, ses poids et ses biais sont modifiés grâce à des données d’entraînement spécifiques au domaine.

Hyperparamètres

Les hyperparamètres sont des paramètres externes qui déterminent le comportement, la forme, la taille, l’utilisation des ressources et d’autres caractéristiques d’un modèle. Le processus de réglage des hyperparamètres ou de réglage des modèles s’appuie sur des algorithmes pour découvrir la combinaison optimale d’hyperparamètres pour de meilleures performances. Avec le prompt engineering,, le réglage des hyperparamètres est l’une des principales méthodes de personnalisation des LLM. 

  • Les hyperparamètres d’architecture, tels que le nombre de couches et la dimension des couches masquées, configurent la taille et la forme d’un modèle. 

  • Les hyperparamètres d’entraînement, tels que le taux d’apprentissage et la taille des lots, guident le processus d’entraînement du modèle. Les hyperparamètres d’entraînement ont une incidence considérable sur les performances des modèles et sur leur capacité à répondre aux critères de référence LLM requis. 

  • Les hyperparamètres d’inférence, tels que la température et l’échantillonnage top-p, décident comment un modèle d’IA générative produit ses résultats. 

  • Les hyperparamètres de mémoire et de calcul, tels que la fenêtre contextuelle, le nombre maximal de tokens dans une séquence de sortie et les séquences d’arrêt, équilibrent les performances et les capacités du modèle avec les ressources requises. 

  • Les hyperparamètres de qualité de sortie, tels que la pénalité de présence et la pénalité de fréquence, aident les LLM à générer des sorties plus variées et plus intéressantes tout en contrôlant les coûts.

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Paramètres LLM notables

Le nombre de paramètres dans les modèles plus grands, les réseaux de neurones complexes tels que GPT-4 et GPT-3, Llama, Gemini et autres modèles de transformeurs, peut atteindre plusieurs milliards. Les modèles plus petits comportant moins de paramètres, il sont moins gourmands en ressources de calcul, mais aussi moins capables de discerner des schémas et des relations complexes. 

Tous ces paramètres permettent de déterminer le sens que le modèle doit tirer des données du monde réel qu’il rencontre. Mais les paramètres qui affectent le plus directement la sortie du modèle sont ses hyperparamètres. L’un des avantages des modèles open source est que leurs paramètres d’hyperparamètres sont visibles. 

Le réglage des hyperparamètres est un pilier important de la personnalisation des LLM : adapter un modèle à des tâches spécifiques. 

Les hyperparamètres d’un modèle sont les suivants : 

  • Nombre de couches 

  • Fenêtre de contexte

  • Température 

  • Top-p (échantillonnage du noyau) 

  • Top-k 

  • Nombre de tokens (tokens max.) 

  • Taux d’apprentissage 

  • Pénurie de fréquence 

  • Pénurie de présence

  • Séquence d’arrêt

Nombre de couches

Le nombre de couches dans un réseau neuronal est un hyperparamètre crucial pour définir la taille et la complexité du modèle. Les neural networks sont constitués de couches de neurones ou de nœuds. Plus il y a de couches entre la couche d’entrée initiale et la couche de sortie finale, plus le modèle est complexe. 

Mais la complexité n’est pas toujours une bonne chose. Un modèle qui comporte trop de couches pour accomplir une tâche qui n’en a pas besoin peut subir un surajustement et gaspiller des ressources de calcul. En revanche, un modèle avec des couches insuffisantes ne parviendra pas à capturer les modèles, les relations et les distributions dans les jeux de données complexes.

Fenêtre de contexte

L’hyperparamètre de fenêtre de contexte s’applique à tout modèle basé sur l’architecture transformatrice, tel que le LLM open source Llama-2. La fenêtre de contexte correspond au nombre maximal de tokens que le modèle peut détecter tout en maintenant la cohérence sur toute la séquence d’entrée. 

La fenêtre contextuelle détermine également la durée de la conversation qu’un modèle peut maintenir sans perdre la trace du contenu précédent. Les fenêtres contextuelles plus grandes conduisent à une plus grande précision, moins d’hallucinations et permettent de traiter des documents plus volumineux ou d’avoir des conversations plus longues.  

Cependant, les grandes fenêtres de contexte nécessitent également davantage de ressources de calcul et peuvent allonger le temps de traitement nécessaire à la génération des réponses.

Température

L’hyperparamètre de température du LLM s’apparente à un réglage d’incertitude ou de créativité. L’augmentation de la température augmente la distribution de probabilité des mots suivants qui apparaissent dans la sortie du modèle lors de la génération de texte

Une température de 1 utilise la distribution de probabilité standard pour le modèle. Les températures supérieures à 1 aplatissent la distribution de probabilité, encourageant le modèle à sélectionner une gamme de tokens plus large. Inversement, les températures inférieures à 1 élargissent la distribution de probabilité, ce qui rend le modèle plus susceptible de sélectionner le token suivant le plus probable. 

Une valeur de température proche de 1,0, par exemple 0,8, signifie que le LLM est plus créatif dans ses réponses, mais avec une prévisibilité potentiellement moins importante. En revanche, une température inférieure à 0,2 produira des réponses plus déterministes. Un modèle avec une température basse fournit des sorties prévisibles, voire stables. Des températures plus élevées, proches de 2,0, peuvent commencer à produire une sortie aberrante. 

Le cas d’utilisation donne la valeur de température idéale pour un LLM. Un chatbot conçu pour être divertissant et créatif, tel que ChatGPT, a besoin d’une température plus élevée pour créer un texte de type humain. Une application de résumé de texte dans un domaine hautement réglementé tel que le droit, la santé ou la finance exige l’inverse : les résumés de texte générés doivent respecter des exigences strictes.

Top-p (échantillonnage du noyau)

Comme la température, l’échantillonnage top-p affecte également la diversité des mots dans les sorties de texte générées. Top-p fonctionne en définissant un seuil de probabilité p pour le token suivant dans une production. Le modèle est autorisé à générer des réponses en utilisant des tokens dans la limite de probabilité. 

Avec l’échantillonnage top-p, les tokens sont classés par ordre de probabilité. Les tokens qui ont une plus grande probabilité d’apparaître à côté dans la séquence ont un score plus élevé, tandis que les tokens moins probables ont un score plus bas. Le modèle assemble un groupe de tokens suivants potentiels jusqu’à ce que le score p cumulé atteigne le seuil fixé, puis il sélectionne de manière aléatoire un token dans ce groupe. 

Des seuils p plus élevés permettent d’obtenir des productions plus diversifiées, tandis que des seuils plus bas préservent la précision et la cohérence.

Échantillonnage de la température par rapport à l’échantillonnage top-p

La différence entre la température et l’échantillonnage top-p est la suivante : la température ajuste la distribution de probabilité des tokens potentiels alors que l’échantillonnage top-p limite la sélection des tokens à un groupe fini.

Top-k

L’hyperparamètre « top-k » est un autre paramètre axé sur la diversité. La valeur k définit la limite du nombre de termes qui peuvent être considérés comme les suivants dans la séquence. Les termes sont ordonnés en fonction de la probabilité, et les k termes les plus importants sont choisis comme candidats.

Top-p par rapport à top-k

Top-p limite le pool de tokens jusqu’à un total de probabilité p défini, tandis que top-k limite le pool aux k termes les plus probables.

Nombre de tokens (tokens max.)

L’hyperparamètre « nombre de tokens » ou « tokens maximum » définit une limite supérieure pour la longueur de la production de tokens. Les valeurs numériques de tokens plus petites sont idéales pour des tâches rapides telles que les conversations de chatbot et les tâches de synthèse, qui peuvent être gérées par de petits modèles de langage ainsi que par des LLM. 

Les valeurs de token les plus élevées sont meilleures quand des productions plus longues sont nécessaires, par exemple si vous tentez d’utiliser un LLM pour le codage vibe.

Taux d’apprentissage

Le taux d’apprentissage est un hyperparamètre critique qui affecte la vitesse à laquelle le modèle ajuste ses poids et ses biais pendant l’entraînement et le réglage fin. Ces processus utilisent souvent un algorithme d’apprentissage connu sous le nom de descente de gradient

Un algorithme de descente de gradient tente de minimiser une fonction de perte qui mesure l’erreur des prédictions d’un modèle. À chaque itération de l’entraînement, l’algorithme met à jour les poids du modèle pour améliorer dans l’idéal les performances avec le lot de données suivant. 

Le taux d’apprentissage contrôle le degré de mise à jour des pondérations. Un taux d’apprentissage plus élevé entraîne des augmentations plus importantes, accélérant l’entraînement au risque de dépasser un minimum local. Les taux d’apprentissage plus faibles permettent des ajustements plus subtils, mais nécessitent plus d’itérations pour atteindre un minimum et ils peuvent même être bloqués. 

Une méthode efficace pour gérer le taux d’apprentissage consiste à commencer l’entraînement avec une valeur plus élevée et à réduire le taux d’apprentissage lorsque le modèle se rapproche d’un minimum local de sa fonction de perte.

Pénalité de fréquence

L’hyperparamètre de pénalité de fréquence permet d’empêcher les modèles d’utiliser des termes au sein des mêmes sorties. Une fois qu’un terme apparaît dans la sortie, la pénalité de fréquence empêche le modèle de le réutiliser ultérieurement. 

Les modèles attribuent des scores appelé logits à chaque token et utilisent des logits pour calculer les valeurs de probabilité. Les pénalités de fréquence abaissent de manière linéaire la valeur logit d’un terme chaque fois qu’il est répété, ce qui le rend progressivement moins susceptible d’être choisi la prochaine fois. Des valeurs de pénalité plus élevées réduisent davantage le logit par application. 

Comme le modèle doit éviter de répéter les termes, il doit en choisir d’autres, ce qui se traduit par un choix de mots plus diversifié dans le texte généré.

Pénalité de répétition

La pénalité de répétition est similaire à la pénalité de fréquence, sauf qu’elle est exponentielle plutôt que linéaire. La pénalité de répétition diminue le logit d’un terme de manière exponentielle chaque fois qu’il est réutilisé, ce qui en fait un moyen de découragement plus puissant que la pénalité de fréquence. C’est pourquoi il est recommandé de réduire les valeurs de pénalité de répétition. 

Pénalité de présence

La pénalité de présence est un hyperparamètre connexe qui fonctionne de la même manière que la pénalité de fréquence, sauf qu’elle ne s’applique qu’une seule fois. La pénalité de présence réduit la valeur logit d’un terme de la même manière, quelle que soit la fréquence à laquelle ce terme est présent dans la sortie, à la condition qu’il apparaisse au moins une fois. 

Si le terme ours apparaît 10 fois dans la sortie et que le terme renard apparaît une fois, l’ours a une pénalité plus élevée que le renard. Cependant, l’ours et le renard partagent la même pénalité de présence.

Séquence d’arrêt

La séquence d’arrêt est une chaîne prédéfinie de tokens qui, lorsqu’elle apparaît, entraîne le modèle à mettre fin à la séquence de sortie. Par exemple, si un modèle est conçu pour produire une seule phrase à la fois, la séquence d’arrêt peut être un point. 

Les séquences d’arrêt conservent la concision des réponses sans affecter la manière dont le modèle génère une sortie jusqu’au point d’arrêt. Comme elles tronquent les réponses des modèles, les séquences d’arrêt permettent également d’économiser sur les coûts des tokens lors de la connexion aux LLM via des API.

Optimisation des paramètres du LLM

L’optimisation des paramètres internes et entraînables d’un modèle (ses poids et ses biais) est essentielle pour obtenir de bonnes performances. Une fois qu’un modèle dispose des hyperparamètres optimaux, ses concepteurs disposent d’une gamme de méthodes pour aider à façonner les paramètres internes du LLM. 

  • L’apprentissage par transfert est une vaste école de techniques d’optimisation de modèles qui consistent toutes à utiliser les connaissances a priori d’un modèle pour améliorer la performance d’une nouvelle tâche. 

  • La quantification simplifie tous les calculs à l’intérieur d’un modèle, le rendant plus petit et plus efficace tout en représentant les mêmes données. 

  • L’arrêt anticipé empêche le surajustement en abandonnant le processus d’entraînement lorsqu’il cesse de générer des gains de performance notables.

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA