La utilidad del ajuste de instrucciones, como la de la mayoría de las técnicas de afinación, radica en el hecho de que los LLM preentrenados no están optimizados para conversaciones o seguimiento de instrucciones. En un sentido literal, los LLM no responden a un prompt: solo le añaden texto. El ajuste de instrucciones ayuda a que el texto anexado sea más útil.
El proceso de preentrenamiento de los modelos de lenguaje autorregresivos (LLM utilizados para generar texto, como Llama 2 de Meta, GPT de OpenAI, Gemini de Google o Granite de IBM) optimiza estos LLM para predecir simplemente las siguientes palabras en una secuencia determinada hasta que se complete.
Los LLM se entrenan previamente mediante aprendizaje autosupervisado en un corpus masivo de contenido escrito. En el preentrenamiento, a los modelos autorregresivos se les proporciona el comienzo de una muestra de texto y se les encomienda repetidamente la tarea de predecir la siguiente palabra de la secuencia hasta el final del fragmento. Para cada predicción, la siguiente palabra real de la oración de muestra original sirve como "verdad fundamental". A través de algoritmos de optimización como el descenso de gradiente que ajustan iterativamente los parámetros del modelo (los pesos y sesgos variables aplicados a las operaciones matemáticas que ocurren en cada nodo de una red neuronal) de una manera que acerca las predicciones del modelo al texto original, el modelo "aprende" los patrones lingüísticos en sus datos de entrenamiento (y, por extensión, el "conocimiento" transmitido en esos patrones lingüísticos).
Aunque este proceso de preentrenamiento imparte una capacidad impresionante para generar texto lingüísticamente coherente, no necesariamente alinea el rendimiento del modelo con las necesidades prácticas de los usuarios humanos. Sin una afinación, un modelo base podría responder a un mensaje de "enséñame a hornear pan " con "en un horno casero". Es una forma gramaticalmente correcta de completar la frase, pero no lo que el usuario quería.
Sin embargo, el entrenamiento previo de un LLM para cualquier propósito específico (como seguir instrucciones) no es práctico. El "gran" en "modelos de lenguaje de gran tamaño" se refiere al hecho de que estos modelos a menudo tienen miles de millones de parámetros: entrenar estos enormes modelos desde cero implica una enorme cantidad de energía, tiempo, recursos computacionales y datos de entrenamiento. Por el contrario, la afinación de un LLM ya entrenado requiere muchos menos datos y, especialmente cuando se utilizan métodos de afinación eficiente de parámetros (PEFT) como la afinación parcial o la adaptación de bajo rango (LoRA), solo una fracción de las demandas computacionales.
Aunque la afinación se puede lograr a través de casi cualquier paradigma de machine learning, incluido el aprendizaje por refuerzo, el aprendizaje semisupervisado o el aprendizaje autosupervisado adicional, el ajuste de instrucciones implica un aprendizaje supervisado en pares etiquetados (entrada, output). Lo que distingue el ajuste de instrucciones de otras formas de afinación supervisada (SFT) es que las muestras de entrada en un conjunto de datos de instrucciones consisten completamente en tareas que se asemejan a las solicitudes que los usuarios podrían hacer en sus prompts; los outputs demuestran respuestas deseables a esas solicitudes. Al ajustar las ponderaciones del modelo para que las salidas del LLM se parezcan a los ejemplos del conjunto de datos de instrucciones, el LLM "aprende" a responder a un prompt como "enséñame a hornear pan" añadiendo un texto que contiene consejos reales para hornear pan.
De esta forma, el ajuste de instrucciones ayuda a cerrar la brecha entre el objetivo fundamental del modelo (la predicción de la siguiente palabra) y el objetivo del usuario de que el modelo siga instrucciones y realice tareas específicas. Esto hace que el comportamiento del modelo sea más útil y predecible.