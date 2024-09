Le réglage fin intégral, comme le processus d’entraînement préalable auquel il ressemble, est très exigeant en termes de calcul. Pour les modèles modernes d’apprentissage profond avec des centaines de millions, voire plusieurs milliards de paramètres, le coût est souvent prohibitif et l’opération est peu pratique.

Le « parameter-efficient fine-tuning » (PEFT) englobe une série de méthodes visant à réduire le nombre de paramètres entraînables qui doivent être mis à jour afin d’adapter efficacement un grand modèle pré-entraîné à des applications spécifiques en aval. Ce faisant, le PEFT réduit considérablement les ressources informatiques et le stockage de la mémoire nécessaires pour obtenir un modèle finement réglé. Les méthodes PEFT se sont souvent révélées plus stables que les méthodes de réglage fin intégral, en particulier pour les cas d’utilisation NLP.3



Réglage fin partiel

Également appelé réglage fin sélectif, les méthodes de réglage fin partiel visent à réduire les demandes de calcul en mettant à jour uniquement le sous-ensemble sélectionné de paramètres pré-entraînés les plus critiques pour modéliser les performances des tâches en aval pertinentes. Les paramètres restants sont « gelés », ce qui garantit qu’ils ne seront pas modifiés.

L’approche la plus intuitive du réglage fin partiel consiste à ne mettre à jour que les couches extérieures du réseau neuronal. Dans la plupart des architectures de modèles, les couches internes du modèle (les plus proches de la couche d’entrée) ne capturent que des caractéristiques générales et génériques : par exemple, dans un CNN utilisé pour la classification d’images, les premières couches discernent généralement les bords et les textures, chaque couche suivante discerne des caractéristiques de plus en plus fines jusqu’à ce que la classification finale soit prédite au niveau de la couche la plus externe. En règle générale, plus la nouvelle tâche (pour laquelle le modèle est finement réglé) est similaire à la tâche initiale, plus les poids pré-entraînés des couches internes seront utiles pour cette nouvelle tâche connexe – et donc moins il y aura de couches à mettre à jour.

D’autres méthodes de réglage fin partiel, notamment la seule mise à jour des termes de biais du modèle à l’échelle de la couche (plutôt que les poids spécifiques aux nœuds),4 et les méthodes de réglage fin « épars » qui ne mettent à jour qu’un sous-ensemble sélectionné de poids globaux dans l’ensemble du modèle.5



Réglage fin additionnel

Plutôt que d’effectuer un réglage fin des paramètres existants d’un modèle pré-entraîné, les méthodes additionnelles ajoutent des paramètres ou des couches supplémentaires au modèle, gèlent les poids pré-entraînés existants et n’entraînent que ces nouveaux composants. Cette approche permet de conserver la stabilité du modèle en garantissant que les poids pré-entraînés d’origine restent inchangés.

Bien que cela puisse augmenter le temps d’entraînement, cela réduit considérablement les besoins en mémoire, car il y a beaucoup moins de gradients et d’états d’optimisation à stocker : selon Lialin et al., l’entraînement de tous les paramètres d’un modèle nécessite 12 à 20 fois plus de mémoire GPU que les seuls poids du modèle.6 D’autres économies de mémoire peuvent être réalisées grâce à la quantification des poids du modèle gelés : une réduction de la précision utilisée pour représenter les paramètres du modèle, conceptuellement similaire à la réduction du débit binaire d’un fichier audio.

L’une des sous-branches des méthodes additives est le réglage des invites. Sur le plan conceptuel, il est similaire au prompt engineering, qui consiste à personnaliser des « hard prompts », c’est-à-dire des invites écrites par un humain en langage naturel, pour guider le modèle vers la sortie souhaitée, en spécifiant un certain ton ou en fournissant des exemples qui facilitent l’apprentissage « few-shot ». Le réglage des invites introduit des « soft prompts » créées par l’IA (intégrations vectorielles faciles à apprendre qui sont concaténées à la hard prompt de l’utilisateur). Plutôt que de réentraîner le modèle, le réglage des invites consiste à geler les poids du modèle et à entraîner la soft prompt elle-même. Rapide et efficace, le réglage des invites permet aux modèles de passer plus facilement d’une tâche spécifique à l’autre, mais avec un compromis en matière d’interprétabilité.



Adaptateurs

Un autre sous-ensemble du réglage fin additif, injecte des modules d’adaptation, c’est-à-dire de nouvelles couches spécifiques à des tâches ajoutées au réseau neuronal, et entraîne ces modules d’adaptation au lieu d’affiner les poids des modèles pré-entraînés (qui sont figés). Selon l’article original, qui mesurait les résultats sur le modèle de langage masqué BERT, les adaptateurs ont atteint des performances équivalentes à celles d’un réglage fin intégral tout en n’entraînant que 3,6 % des paramètres en plus.7



Reparamétrage

Les méthodes basées sur le reparamétrage telles que l’adaptation de bas rang (« Low Rank Adaptation » ou LoRA) exploitent la transformation de bas rang de matrices de grande dimension (comme la matrice massive des poids de modèle pré-entraînés dans un modèle de transformateur). Ces représentations de rang inférieur omettent des informations de dimension supérieure sans importance afin de capturer la structure sous-jacente de faible dimension des poids du modèle, ce qui réduit considérablement le nombre de paramètres pouvant être entraînés. Ceci accélère considérablement le réglage et réduit la mémoire nécessaire pour stocker les mises à jour des modèles.

La LoRa évite l’optimisation directe de la matrice des poids du modèle et optimise à la place une matrice de mises à jour des poids du modèle (ou poids delta), qui est insérée dans le modèle. Cette matrice de mises à jour des poids est, à son tour, représentée sous la forme de deux matrices plus petites (c’est-à-dire de rang inférieur), ce qui réduit considérablement le nombre de paramètres à mettre à jour, accélère le réglage et réduit la mémoire nécessaire pour stocker les mises à jour des modèles. Les poids des modèles pré-entraînés eux-mêmes restent figés.

Un avantage supplémentaire de la LoRA est que, puisque les éléments optimisés et stockés ne sont pas les nouveaux poids du modèle mais plutôt la différence (ou delta) entre les poids pré-entraînés d’origine et les poids affinés, les différents LoRA propres à une tâche peuvent être « échangés » selon les besoins pour adapter le modèle pré-entraîné – dont les paramètres réels restent inchangés – à un cas d’utilisation donné.

Une variété de dérivées de la LoRA a été développée, comme la QLoRA, qui réduit davantage la complexité de calcul en quantifiant le modèle de transformateur avant la LoRA.