La utilidad del ajuste de instrucciones, como la de la mayoría de las técnicas de ajuste fino, radica en el hecho de que los LLM preentrenados no están optimizados para conversaciones o seguimiento de instrucciones. En un sentido literal, los LLM no responden a una instrucción: solo le agregan texto. El ajuste de instrucciones ayuda a que el texto adjunto sea más útil.
El proceso de preentrenamiento para modelos de lenguaje autorregresivos (LLM empleados para generar texto, como Llama 2 de Meta, GPT de OpenAI, Gemini de Google o Granite de IBM)optimiza estos LLM para simplemente predecir las siguientes palabras en una secuencia determinada hasta que esté completa.
Los LLM se preentrenan mediante el aprendizaje autosupervisado en un corpus masivo de contenido escrito. Durante el entrenamiento previo, a los modelos autorregresivos se les proporciona el comienzo de una muestra de texto y se les asigna repetidamente la tarea de predecir la siguiente palabra en la secuencia hasta el final del extracto. Para cada predicción, la siguiente palabra real de la oración de muestra original sirve como "verdad fundamental". A través de algoritmos de optimización, como el descenso del gradiente, que ajustan iterativamente los parámetros del modelo (los pesos y sesgos variables aplicados a las operaciones matemáticas que ocurren en cada nodo de una red neural) de una manera que acerca las predicciones del modelo al texto original, el modelo "aprende" los patrones lingüísticos en sus datos de entrenamiento (y, por extensión, el "conocimiento" transmitido en esos patrones lingüísticos).
Aunque este proceso de preentrenamiento imparte una capacidad impresionante para generar texto lingüísticamente coherente, no necesariamente alinea el rendimiento del modelo con las necesidades prácticas de los usuarios humanos. Sin ajustes, un modelo base podría responder a un mensaje de "muéstrame cómo hornear pan" con "en un horno casero". Esa es una forma gramaticalmente correcta de completar la oración, pero no lo que el usuario quería.
Sin embargo, el entrenamiento previo de un LLM para cualquier propósito específico (como seguir instrucciones) no es práctico. El "grande" en "modelos de lenguaje grandes" se refiere al hecho de que estos modelos a menudo tienen miles de millones de parámetros: capacitar estos enormes modelos desde cero implica una enorme cantidad de energía, tiempo, recursos computacionales y datos de entrenamiento. Por el contrario, el ajuste fino de un LLM ya entrenado requiere muchos menos datos y, especialmente cuando se emplean métodos de ajuste eficiente de parámetros (PEFT) como el ajuste fino parcial o la adaptación de bajo rango (LoRA), solo una fracción de las demandas computacionales.
Aunque el ajuste se puede lograr a través de casi cualquier paradigma de machine learning, incluido el aprendizaje por refuerzo, el aprendizaje semisupervisado o el aprendizaje autosupervisado adicional, el ajuste de las instrucciones implica un aprendizaje monitoreado en pares etiquetados (entrada, salida). Lo que distingue el ajuste de instrucciones de otras formas de ajuste monitoreado (SFT) es que las muestras de entrada en un conjunto de datos de instrucciones consisten completamente en tareas que se asemejan a las solicitudes que los usuarios podrían hacer en sus instrucciones; los resultados demuestran respuestas deseables a esas solicitudes. Al ajustar las ponderaciones del modelo para que los resultados del LLM se parezcan a los ejemplos del conjunto de datos de instrucciones, el LLM "aprende" a responder a un mensaje como "muéstrame a hornear pan" agregando un texto con consejos reales para hornear pan.
De esta forma, el ajuste de instrucciones ayuda a cerrar la brecha entre el objetivo fundamental del modelo (la predicción de la siguiente palabra) y el objetivo del usuario de que el modelo siga instrucciones y realice tareas específicas. Esto hace que el comportamiento del modelo sea más útil y previsible.