Comprendamos la tarea de análisis de sentimiento que proporciona una explicación clara de la mecánica y los beneficios de la instrucción. Supongamos que el objetivo es adaptar un modelo de 175 mil millones de parámetros para clasificar los comentarios de películas como "positivas" o "negativas". Un enfoque de ajuste completo sería prohibitivamente costoso y lento. Con el ajuste rápido, el proceso es el siguiente:
Comience con un modelo previamente entrenado congelado: la columna vertebral de parámetros 175B permanece completamente intacta, preservando su vasto repositorio de conocimiento general aprendido durante el entrenamiento previo.5
Agregue instrucciones: Se adjunta un pequeño conjunto de vectores entrenables (por ejemplo, 20 tokens) a las incorporaciones de entrada de cada comentario. Estos vectores no son texto legible por humanos; son incorporaciones continuas que existen en el mismo espacio de alta dimensión que el vocabulario del modelo (por ejemplo, un espacio de 12,288 dimensiones para un modelo de esta escala). A través de la optimización, estos vectores aprenden a codificar una señal continua y específica de la tarea que dirige el comportamiento del modelo.
Alimentar la entrada: por ejemplo,
[Soft Instrucciones] ¡La película fue absolutamente fantástica!
En este ejemplo, supongamos que inicializamos 20 tokens de instrucción para una tarea de análisis de sentimiento. Después del entrenamiento, la entrada podría verse así internamente:
[<v1>, <v2>, <v3>, ... <v20>, The, movie, was, absolutely, fantastic, !]
Aquí, cada v1 es un vector de instrucciones aprendido y de alta dimensión. El objetivo del entrenamiento es encontrar los valores óptimos para los vectores que guían el modelo congelado para clasificar correctamente el sentimiento del texto posterior.
Entrene solo las instrucciones: mediante el uso de un conjunto de datos etiquetado de comentarios, se inicia el proceso de entrenamiento. A través de retropropagación, el gradiente de error se calcula pero el paso de optimización actualiza solo los parámetros de las incorporaciones de instrucción suaves. Este enfoque implica ajustar solo unos pocos miles de parámetros en lugar de los 175 mil millones de pesos del modelo.5
Desplegar con modularidad: una vez que se completa el entrenamiento, el conjunto resultante de 20 vectores constituye toda la adaptación específica de la tarea. Para adaptar el mismo modelo base para una tarea diferente, como la detección de spam, uno simplemente entrena un nuevo conjunto de instrucciones suaves en un conjunto de datos de spam y los intercambia en el momento de la inferencia.
Esta técnica ofrece beneficios sustanciales de eficiencia. En lugar de almacenar una copia completa e independiente del modelo para cada tarea (un modelo de parámetros 175B puede requerir hasta 350 GB), es necesario almacenar los parámetros de instrucciones específicos de la tarea, que pueden tener solo unos pocos KB de tamaño.1 Esta modularidad hace que el ajuste de instrucción sea una solución práctica y rentable para la adaptación de modelos a gran escala.2