Le réglage fin efficace des paramètres (PEFT, Parameter-Efficient Fine-Tuning) est une méthode permettant d’améliorer les performances des grands modèles de langage (LLM) et des réseaux neuronaux pré-entraînés pour des tâches ou des ensembles de données spécifiques. En entraînant un petit ensemble de paramètres et en préservant la majeure partie de la structure du grand modèle préentraîné, le PEFT permet d’économiser du temps et des ressources informatiques.
Les réseaux neuronaux entraînés pour des tâches générales telles que le traitement automatique du langage naturel (NLP) ou la classification des images peuvent se spécialiser dans une nouvelle tâche connexe sans être entièrement réentraînés. Le PEFT est un moyen économe en ressources de créer des modèles hautement spécialisés sans repartir de zéro à chaque fois.
Le PEFT fonctionne en gelant la plupart des paramètres et des couches du modèle de langage pré-entraîné tout en ajoutant quelques paramètres pouvant être entraînés, appelés adaptateurs, aux couches finales pour des tâches en aval prédéterminées.
Les modèles affinés conservent tous les enseignements acquis lors de l’entraînement tout en se spécialisant dans leurs tâches en aval respectives. De nombreuses méthodes PEFT améliorent encore l’efficacité grâce au contrôle des gradients, une technique d’économie de mémoire qui aide les modèles à apprendre sans stocker autant d’informations à la fois.
Le réglage fin efficace des paramètres permet d’équilibrer l’efficacité et les performances afin d’aider les entreprises à maximiser les ressources de calcul tout en minimisant les coûts de stockage. Lorsqu’ils sont optimisés à l’aide des méthodes PEFT, les modèles basés sur des transformateurs tels que GPT-3, LLaMA et BERT peuvent exploiter toutes les connaissances contenues dans leurs paramètres de pré-entraînement et être plus performants qu’ils ne le seraient sans réglage fin.
Le PEFT est souvent utilisé lors de l’apprentissage par transfert, où les modèles entraînés pour une tâche sont appliqués à une deuxième tâche connexe. Par exemple, un modèle entraîné pour la classification d’images peut être mis à contribution sur la détection d’objets. Si un modèle de base est trop grand pour être entièrement réentraîné ou si la nouvelle tâche est différente de l’originale, le PEFT peut être la solution idéale.
Les méthodes classiques de réglage fin intégral impliquent de légers ajustements de tous les paramètres des LLM pré-entraînés, afin de les adapter à des tâches spécifiques. Cependant, les progrès de l’intelligence artificielle (IA) et de l’apprentissage profond (DL) ont produit des modèles volumineux et plus complexes, si bien que le processus de réglage fin est devenu trop exigeant en ressources de calcul et en énergie.
De plus, chaque modèle ajusté a la même taille que l’original. Tous ces modèles occupent un espace de stockage important, ce qui augmente encore les coûts pour les entreprises qui les utilisent. Si le réglage fin permet d’améliorer l’efficacité du machine learning (ML), le processus appliqué aux LLM est devenu inefficace.
Le PEFT ajuste les quelques paramètres les plus pertinents par rapport au cas d’utilisation prévu du modèle afin de fournir des performances de modèle spécialisées tout en réduisant son poids, ce qui permet de réaliser des économies de temps et de coûts de calcul considérables.
Le réglage fin efficace des paramètres apporte une multitude d’avantages qui l’ont rendu populaire auprès des entreprises qui utilisent des LLM dans leurs opérations :
La plupart des grands modèles de langage utilisés dans l’IA générative sont alimentés par des processeurs graphiques (GPU) coûteux fabriqués par des sociétés comme Nvidia. Chaque LLM utilise de grandes quantités de ressources de calcul et d’énergie. En ajustant les paramètres les plus pertinents, il est possible de réaliser d’importantes économies sur les coûts d’énergie et de cloud computing.
Le délai de rentabilité (« time-to-value ) est le temps nécessaire pour développer, entraîner et déployer un LLM afin qu’il puisse commencer à générer de la valeur pour l’organisation qui l’utilise. Comme le PEFT ne modifie que quelques paramètres pouvant être entraînés, la mise à jour d’un modèle pour une nouvelle tâche prend beaucoup moins de temps. Le PEFT peut fournir des performances comparables à celles d’un processus de réglage fin complet en peu de temps et à moindre coût.
Un oubli catastrophique se produit lorsque les LLM perdent ou « oublient » les connaissances acquises au cours du processus d’entraînement initial lorsqu’ils sont réentraînés ou réglés pour de nouveaux cas d’utilisation. Comme le PEFT préserve la plupart des paramètres initiaux, il protège également contre l’oubli catastrophique.
On parle de surajustement lorsqu’un modèle se rapproche trop de ses données d’entraînement pendant le processus d’entraînement, ce qui le rend incapable de générer des prédictions précises dans d’autres contextes. Les modèles transformateurs optimisés avec le PEFT sont beaucoup moins sujets au surajustement, car la plupart de leurs paramètres restent statiques.
En se concentrant sur quelques paramètres, le PEFT réduit les besoins en données d’entraînement pour le processus d’optimisation. Le réglage fin intégral nécessite un ensemble de données d’entraînement beaucoup plus important, car tous les paramètres du modèle seront ajustés au cours du processus.
Sans PEFT, les coûts de développement d’un LLM spécialisé sont trop élevés pour de nombreuses petites ou moyennes entreprises. Le PEFT met les LLM à la disposition d’équipes qui, sinon, n’auraient pas le temps ou les ressources nécessaires pour entraîner et affiner les modèles.
Le PEFT permet aux data scientists et à d’autres professionnels de personnaliser des LLM à usage général en fonction de cas d’utilisation individuels. Les équipes d’IA peuvent expérimenter l’optimisation des modèles sans se soucier de la consommation de ressources de calcul, d’énergie et de stockage.
Les équipes d’IA disposent de plusieurs techniques et algorithmes PEFT, chacun avec ses avantages et ses spécialisations. La plupart des outils PEFT les plus populaires sont disponibles auprès de Hugging Face et de nombreuses autres communautés GitHub.
Les adaptateurs sont l’une des premières techniques PEFT à être appliquées aux modèles de traitement automatique du langage naturel (NLP). Les chercheurs ont tenté de surmonter le défi de l’entraînement d’un modèle pour plusieurs tâches en aval tout en minimisant son poids. Les modules d’adaptation ont fourni la solution : des petits modules complémentaires insèrent une poignée de paramètres spécifiques à la tâche et peuvent être entraînés dans chaque couche du transformation du modèle.
Introduite en 2021, l’adaptation à faible rang (LoRA, Low Rank Adaptation) des grands modèles de langage (LoRA) utilise des matrices de décomposition jumelles à faible rang pour minimiser les poids du modèle et réduire encore davantage le sous-ensemble de paramètres pouvant être entraînés.
La technique QLoRA est une version étendue du LoRA qui quantifie ou normalise le poids de chaque paramètre pré-entraîné à 4 bits seulement par rapport au poids usuel de 32 bits. Ainsi, le QLoRA offre des économies de mémoire considérables et permet d’exécuter un LLM sur un seul GPU.
Spécialement créé pour les modèles de génération de langage naturel (NLG), le prefix-tuning ajoute un vecteur continu spécifique à la tâche, appelé préfixe, à chaque couche de transformation tout en gardant tous les paramètres gelés. Par conséquent, les modèles réglés par préfixes stockent plus de mille fois moins de paramètres que les modèles entièrement affinés avec des performances comparables.
Le prompt-tuning simplifie le prefix-tuning et entraîne les modèles en injectant des prompts personnalisés dans les données d’entrée ou d’entraînement. Les « hard prompts » sont créés manuellement, tandis que les « soft prompts » sont générés par l’IA sous la forme de chaînes de nombres qui s’appuient sur les connaissances du modèle de base. Il a été constaté que les soft prompts sont plus performants que les hard prompts générés par l’homme lors du réglage.
Le P-tuning est une variante du prompt-tuning, conçue pour les tâches de natural language understanding (NLU ou compréhension du langage naturel). Plutôt que d’utiliser des prompts créés manuellement, le P-tuning a introduit l’automatisation de l’entraînement et de la génération de prompts de façon à obtenir des prompts d’entraînement plus percutants au fil du temps.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io