Modelos de aprendizado de máquina grandes e complexos, como aqueles usados para grandes modelos de linguagem (LLMs), como o ChatGPT, exigem muito tempo e muitos recursos para serem configurados. Eles podem ter trilhões de parâmetros definidos com valores específicos. Quando esse processo estiver concluído, o modelo pode ser poderoso e preciso em geral, mas não necessariamente recebeu ajuste fino para realizar tarefas específicas.
Fazer um modelo funcionar em contextos específicos pode exigir muito retreinamento, alterando todos os seus parâmetros. Com o número de parâmetros em tais modelos, esse retreinamento é caro e demorado. A LoRA oferece uma maneira rápida de adaptar o modelo sem retreiná-lo.
Por exemplo, um ajuste fino completo do modelo GPT-3 requer o treinamento de 175 bilhões de parâmetros devido ao tamanho do seu conjunto de dados de treinamento. Usando a LoRA, os parâmetros treináveis para GPT-3 podem ser reduzidos para aproximadamente 18 milhões de parâmetros, o que reduz os requisitos de memória GPU em aproximadamente dois terços.
A LoRA não é o único método eficiente de ajuste fino. Uma variante da LoRA é a LoRA de quantização (QLoRA), uma técnica de ajuste fino que combina uma técnica de computação de alta precisão com um método de armazenamento de baixa precisão. Isso ajuda a manter o tamanho do modelo pequeno e, ao mesmo tempo, garantir que ele tenha um alto desempenho e seja preciso.