Les modèles de machine learning volumineux et complexes, tels que ceux utilisés pour les grands modèles de langage (LLM) comme ChatGPT prennent beaucoup de temps et nécessitent de mettre en place de nombreuses ressources. Ils peuvent avoir des milliards de paramètres définis sur des valeurs spécifiques. Une fois ce processus terminé, le modèle est généralement puissant et précis, mais il n’est pas nécessairement adapté à l’exécution de tâches spécifiques.
Faire fonctionner un modèle dans des contextes spécifiques peut nécessiter beaucoup de réentraînement ainsi qu’une modification de tous ses paramètres. Compte tenu du nombre de paramètres dans de tels modèles, ce réentraînement est coûteux et prend du temps. La LoRA offre un moyen rapide d’adapter le modèle sans le réentraîner.
Par exemple, un affinage complet du modèle GPT-3 nécessite d’entraîner 175 milliards de paramètres en raison de la taille de son jeu de données d’entraînement. Avec la LoRA, les paramètres pouvant être entraînés pour GPT-3 peuvent être réduits à environ 18 millions, ce qui réduit les besoins en mémoire du GPU d’environ deux tiers.
La LoRA n’est pas la seule méthode de réglage fin efficace. Une variante de la LoRA, la quantification LoRA (QLoRA), est une technique de réglage fin qui combine une technique de calcul à haute précision avec une méthode de stockage à faible précision. Cela permet de réduire la taille du modèle tout en s’assurant qu’il est toujours très performant et précis.