Los modelos de machine learning grandes y complejos, como los que se utilizan para los modelos de lenguaje grandes (LLM) como ChatGPT, requieren mucho tiempo y numerosos recursos para configurarse. Pueden tener billones de parámetros que se establecen en valores específicos. Una vez que se completa este proceso, el modelo puede ser poderoso y preciso en general, pero no necesariamente está ajustado para llevar a cabo tareas específicas.
Lograr que un modelo funcione en contextos específicos puede requerir una gran cantidad de reentrenamiento, cambiando todos sus parámetros. Con la cantidad de parámetros en tales modelos, este reentrenamiento es costoso y requiere mucho tiempo. LoRA proporciona una forma rápida de adaptar el modelo sin volver a entrenarlo.
Por ejemplo, un ajuste completo del modelo GPT-3 requiere entrenar 175 mil millones de parámetros debido al tamaño de su conjunto de datos de entrenamiento. Con LoRA, los parámetros entrenables para GPT-3 se pueden reducir a aproximadamente 18 millones de parámetros, lo que reduce los requisitos de memoria de GPU en aproximadamente dos tercios.
LoRA no es el único método eficiente de ajuste. Una variante de LoRA es la cuantificación LoRA (QLoRA), una técnica de ajuste que combina una técnica informática de alta precisión con un método de almacenamiento de baja precisión. Esto ayuda a mantener pequeño el tamaño del modelo y, al mismo tiempo, garantiza que el modelo siga teniendo un alto rendimiento y precisión.