Los métodos basados en la reparameterización, como la adaptación de rango bajo (LoRa) , aprovechan la transformación de rango bajo de matrices de alta dimensión (como la enorme matriz de ponderaciones de modelos preentrenados en un modelo de transformador). Estas representaciones de bajo rango omiten la información intrascendente de mayor dimensión para capturar la estructura subyacente de baja dimensión de las ponderaciones del modelo, lo que reduce en gran medida el número de parámetros que se pueden entrenar. Esto acelera drásticamente el fine-tuning y reduce la memoria necesaria para almacenar las actualizaciones de los modelos.
LoRA evita la optimización directa de la matriz de ponderaciones del modelo y, en su lugar, optimiza una matriz de actualizaciones de las ponderaciones del modelo (o pesos delta), que se inserta en el modelo. Esa matriz de actualizaciones de ponderaciones se representa, a su vez, como dos matrices más pequeñas (es decir, de rango inferior), lo que reduce en gran medida el número de parámetros que se van a actualizar, lo que, a su vez, acelera drásticamente el fine-tuning y reduce la memoria necesaria para almacenar las actualizaciones del modelo. Las ponderaciones del modelo preentrenadas permanecen congeladas.
Una ventaja añadida de LoRA es que, dado que lo que se optimiza y almacena no es la nueva ponderación del modelo, sino la diferencia (o delta) entre las ponderaciones originales preentrenadas y las ponderaciones ajustadas, se pueden "intercambiar" diferentes LoRA específicos de la tarea según sea necesario para adaptar el modelo preentrenado, cuyos parámetros reales permanecen inalterados, a un caso de uso determinado.
Se han desarrollado diversos derivados de LoRA, como QLoRA, que reducen aún más la complejidad computacional cuantificando el modelo del transformador antes de LoRA.