El ajuste de instrucciones es un subconjunto de la categoría más amplia de técnicas de ajuste que se utilizan para adaptar modelos fundacionales preentrenados para tareas posteriores. Los modelos fundacionales se pueden ajustar para una variedad de propósitos, desde la personalización del estilo hasta complementar el conocimiento básico y el vocabulario del modelo preentrenado para optimizar el rendimiento para un caso de uso específico. Aunque la afinación no es exclusiva de ningún dominio específico o arquitectura de modelo de inteligencia artificial, se ha convertido en una parte integral del ciclo de vida de los LLM. Por ejemplo, la familia de modelos Llama 2 de Meta se ofrece (en varios tamaños) como modelo base, como variante afinada para el diálogo (Llama-2-chat) y como variante afinada para la codificación (Code Llama).

El ajuste de instrucciones no es mutuamente excluyente con otras técnicas de afinación. Por ejemplo, los modelos de chat suelen someterse tanto al ajuste de instrucciones como al aprendizaje por refuerzo a partir de feedback humano (RLHF), una técnica de afinación que tiene como objetivo mejorar cualidades abstractas como la amabilidad y la honestidad; los modelos afinados para la codificación a menudo se someten tanto a un ajuste de instrucciones (para optimizar ampliamente las respuestas para el seguimiento de instrucciones) como a una afinación adicional en base a datos específicos de programación (para aumentar el conocimiento del modelo sobre la sintaxis y el vocabulario de codificación).

Aunque la génesis de los LLM se remonta al documento de 2017 "Attention is All You Need" que introdujo modelos de transformadores a gran escala en tareas de procesamiento del lenguaje natural (PLN), la incorporación del ajuste de instrucciones y el RLHF(impulsada por influyentes artículos de Google en 20211 y OpenAI en 2022,2 respectivamente) produjeron los LLM modernos que iniciaron la era actual de la IA generativa con el lanzamiento de ChatGPT.