Los modelos de machine learning de gran tamaño y complejos, como los que se utilizan para los modelos de lenguaje de gran tamaño (LLM) como ChatGPT, requieren mucho tiempo y numerosos recursos para configurarse. Pueden tener billones de parámetros que se establecen en valores específicos. Una vez completado este proceso, el modelo puede ser potente y preciso en general, pero no necesariamente está afinado para llevar a cabo tareas específicas.
Conseguir que un modelo funcione en contextos específicos puede requerir una gran cantidad de reentrenamiento, cambiando todos sus parámetros. Con la cantidad de parámetros en tales modelos, este reentrenamiento es costoso y requiere mucho tiempo. LoRA proporciona una forma rápida de adaptar el modelo sin volver a entrenarlo.
Por ejemplo, un ajuste completo del modelo GPT-3 requiere entrenar 175 mil millones de parámetros debido al tamaño de su conjunto de datos de entrenamiento. Con LoRA, los parámetros entrenables para GPT-3 se pueden reducir a aproximadamente 18 millones de parámetros, lo que reduce los requisitos de memoria de la GPU en aproximadamente dos tercios.
LoRA no es el único método eficiente de ajuste fino. Una variante de LoRA es la cuantificación LoRA (QLoRA), una técnica de fine-tuning que combina una técnica informática de alta precisión con un método de almacenamiento de baja precisión. Esto ayuda a mantener el tamaño del modelo pequeño y, al mismo tiempo, garantiza que el modelo siga siendo muy eficaz y preciso.