¿Qué es el ajuste de instrucción?

Autor(es):

Vrunda Gadesha

AI Advocate | Technical Content Author

El ajuste de instrucción es una técnica de ajuste eficiente de parámetros (PEFT) que adapta grandes modelos previamente entrenados a nuevas tareas sin actualizar sus miles de millones de parámetros. En su lugar, aprende un pequeño conjunto de vectores entrenables—llamados instrucciones suaves o tokens—that se insertan en la entrada del modelo. Estos vectores actúan como señales continuas, controlando el modelo congelado hacia el comportamiento esperado y manteniendo intacta la columna vertebral. Esta perspectiva reduce significativamente los costos de computación y almacenamiento, lo que la hace ideal para organizaciones que necesitan personalizar modelos grandes en múltiples casos de uso. 1, 2

¿En qué se diferencia de “impulsar” y “afinar”?

Ingeniería rápida se basa en la elaboración de instrucciones de texto inteligentes (instrucciones duras) para obtener el comportamiento correcto de un modelo. Si bien son eficaces en algunos casos, las instrucciones difíciles son frágiles y difíciles de optimizar a escala. Eso significa que en la ingeniería rápida, los cambios menores en la redacción pueden conducir a variaciones significativas e impredecibles en el rendimiento, por lo que es difícil optimizar sistemáticamente. Sin embargo, el ajuste completo actualiza todos los parámetros del modelo, lo que es costoso desde el punto de vista computacional y requiere mucho almacenamiento, especialmente para modelos con cientos de miles de millones de pesos. El ajuste de la instrucción logra un equilibrio: utiliza incorporaciones continuas en lugar de texto discreto, entrena solo estos pequeños vectores y logra un rendimiento cercano al ajuste completo en muchas tareas, todo mientras es mucho más eficiente. 2, 3

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de la industria, herramientas de IA y tendencias emergentes en ingeniería rápida con el boletín Think. Además, obtenga acceso a nuevos documentos explicativos, tutoriales e insights de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Componentes clave

El enfoque de ajuste de instrucción se basa en componentes que trabajan juntos para adaptar grandes modelos previamente entrenados. El método utiliza un modelo congelado, aprende un conjunto de incorporaciones de instrucción suaves a través de la optimización basada en gradientes y se guía por un conjunto de datos específico de la tarea. Estos elementos permiten una adaptación eficiente de los parámetros sin volver a entrenar todo el modelo. 1, 2

Modelo congelado previamente entrenado: un Modelo de lenguaje extenso / grande (LLM) o transformador de visión funciona como columna vertebral. Permanece congelado durante el entrenamiento, manteniendo su conocimiento general y reduciendo los costos de cómputo y almacenamiento.4

Incorporación de instrucciones suaves: estas instrucciones son vectores entrenables, también conocidos como tokens virtuales adjuntos o insertados en la entrada tokenizada. Actúan como señales continuas que controlan el modelo hacia la tarea de salida sin alterar sus pesos internos.4

Conjunto de datos específico de la tarea:un conjunto de datos etiquetado alineado con la tarea posterior es esencial para la optimización supervisada de las instrucciones suaves.

Optimización basada en gradientes: solo los parámetros de instrucciones suaves y el encabezado ligero (opcionalmente) se actualizan mediante el uso de optimizadores, mientras que la columna vertebral permanece congelada. Este método garantiza que haya eficiencia y estabilidad durante la tarea.4

Diagrama de flujo de los componentes clave del ajuste rápido Figura 1: Componentes clave del ajuste de instrucciones

Como se muestra en la figura, el ajuste rápido de instrucción funciona introduciendo un pequeño conjunto de vectores entrenables en la entrada de un modelo previamente entrenado congelado. Estas indicaciones funcionan como instrucciones ocultas que guían el modelo hacia la tarea objetivo sin actualizar miles de millones de parámetros.

Más allá de estos componentes centrales, varias opciones de diseño influyen significativamente en el rendimiento:

Longitud de la instrucción: la cantidad de tokens virtuales en la instrucción es un hiperparámetro crítico. Varios investigadores realizaron experimentos y derivaron que la duración óptima varía según la tarea. Por ejemplo, las tareas de clasificación simples pueden funcionar mejor con instrucciones más cortas (por ejemplo, menos de 20 tokens), mientras que las tareas complejas de etiquetado de secuencias pueden requerir instrucciones más largas (por ejemplo, alrededor de 100 tokens).5

Ubicación de las instrucciones: este elemento optimiza el lugar de las instrucciones, ya sea que aparezca como prefijo, sufijo o intercalado dentro de la secuencia de entrada.

Estrategia de inicialización: Iniciar instrucciones suaves con valores aleatorios, incorporaciones muestreadas o tokens específicos de tareas puede afectar la velocidad y la precisión de la convergencia.4

Estos elementos adicionales no son obligatorios, pero se recomiendan para lograr resultados óptimos.

AI Academy

Conviértase en un experto en IA

Obtenga el conocimiento para priorizar las inversiones en IA que impulsan el crecimiento del negocio. Comience hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Ejemplo: análisis de sentimiento con ajuste de instrucciones

Comprendamos la tarea de análisis de sentimiento que proporciona una explicación clara de la mecánica y los beneficios de la instrucción. Supongamos que el objetivo es adaptar un modelo de 175 mil millones de parámetros para clasificar los comentarios de películas como "positivas" o "negativas". Un enfoque de ajuste completo sería prohibitivamente costoso y lento. Con el ajuste rápido, el proceso es el siguiente:

Comience con un modelo previamente entrenado congelado: la columna vertebral de parámetros 175B permanece completamente intacta, preservando su vasto repositorio de conocimiento general aprendido durante el entrenamiento previo.5

Agregue instrucciones: Se adjunta un pequeño conjunto de vectores entrenables (por ejemplo, 20 tokens) a las incorporaciones de entrada de cada comentario. Estos vectores no son texto legible por humanos; son incorporaciones continuas que existen en el mismo espacio de alta dimensión que el vocabulario del modelo (por ejemplo, un espacio de 12,288 dimensiones para un modelo de esta escala). A través de la optimización, estos vectores aprenden a codificar una señal continua y específica de la tarea que dirige el comportamiento del modelo.

Alimentar la entrada: por ejemplo,

[Soft Instrucciones] ¡La película fue absolutamente fantástica!

En este ejemplo, supongamos que inicializamos 20 tokens de instrucción para una tarea de análisis de sentimiento. Después del entrenamiento, la entrada podría verse así internamente:

[<v1>, <v2>, <v3>, ... <v20>, The, movie, was, absolutely, fantastic, !]

Aquí, cada v1 es un vector de instrucciones aprendido y de alta dimensión. El objetivo del entrenamiento es encontrar los valores óptimos para los vectores que guían el modelo congelado para clasificar correctamente el sentimiento del texto posterior.

Entrene solo las instrucciones: mediante el uso de un conjunto de datos etiquetado de comentarios, se inicia el proceso de entrenamiento. A través de retropropagación, el gradiente de error se calcula pero el paso de optimización actualiza solo los parámetros de las incorporaciones de instrucción suaves. Este enfoque implica ajustar solo unos pocos miles de parámetros en lugar de los 175 mil millones de pesos del modelo.5

Desplegar con modularidad: una vez que se completa el entrenamiento, el conjunto resultante de 20 vectores constituye toda la adaptación específica de la tarea. Para adaptar el mismo modelo base para una tarea diferente, como la detección de spam, uno simplemente entrena un nuevo conjunto de instrucciones suaves en un conjunto de datos de spam y los intercambia en el momento de la inferencia.

Esta técnica ofrece beneficios sustanciales de eficiencia. En lugar de almacenar una copia completa e independiente del modelo para cada tarea (un modelo de parámetros 175B puede requerir hasta 350 GB), es necesario almacenar los parámetros de instrucciones específicos de la tarea, que pueden tener solo unos pocos KB de tamaño.1 Esta modularidad hace que el ajuste de instrucción sea una solución práctica y rentable para la adaptación de modelos a gran escala.2

Análisis comparativo con otros métodos PEFT

El ajuste basado en instrucciones es una de varias familias dentro del paraguas más amplio de métodos y enfoques de ajuste eficiente de parámetros (PEFT). Comprender la superposición de métodos con otros métodos es esencial para que los profesionales seleccionen la técnica más adecuada. La elección es entre rendimiento, expresividad, eficiencia y complejidad de implementación.

MétodoModificación arquitectónicaExpresividad o poderTamaño entrenableProsContras

Ajuste profundo de instrucciones (P-tuning v2)3

Agrega vectores entrenables ("instrucciones") a cada capa del modelo, lo que influye en el mecanismo de atención.

Alto. Obtiene y combina las habilidades del modelo existente de manera efectiva.

~0.1–3 % de los parámetros del modelo.

Universal en todas las escalas de modelos; más simple que LoRA para muchas tareas de NLU/NLG.

Menos expresivo que LoRA para tareas verdaderamente novedosas; puede ser sensible a los hiperparámetros.

LoRA (adaptación de bajo rango)6

Inyecta matrices de bajo rango entrenables en paralelo con matrices de peso existentes (por ejemplo, en capas de atención).

Muy alto. Puede aprender patrones de atención y comportamientos completamente nuevos, lo que lo hace más poderoso que los métodos basados en instrucciones.

~0.1–1 % de los parámetros del modelo.

Método PEFT más expresivo; sin latencia de inferencia adicional, ya que las ponderaciones se pueden fusionar.

Más complejo de implementar y ajustar el hiperparámetro de rango.

Adaptadores

Inserta nuevos y pequeños módulos de Neural Networks en serie dentro de cada capa de transformador.

Alto. Agrega nueva capacidad computacional al modelo.

~1–4 % de los parámetros del modelo

Estable y bien establecido, altamente modular.

Puede introducir una ligera latencia de inferencia debido al procesamiento en serie, un recuento de parámetros más alto que LoRA o instrucciones.

Ventajas y limitaciones

La instrucción en tiempo real tiene muchos beneficios en aplicaciones en tiempo real, pero es importante comprender sus limitaciones.

Ventajas



Las fortalezas clave del ajuste rápido son la eficiencia, la modularidad y la preservación del conocimiento del modelo base. Parámetro excepcional y rentabilidad: la ventaja más significativa es la reducción drástica de los parámetros entrenables. Al actualizar solo un pequeño conjunto de vectores de instrucciones suaves, que a menudo representan menos del 1 % del modelo total, el ajuste de instrucciones reduce drásticamente los costos computacionales y de almacenamiento.

Esta estrategia hace que la adaptación de modelos fundacionales masivos sea factible para organizaciones con recursos computacionales limitados. Modularidad y despliegue escalable: debido a que cada tarea se encapsula en un conjunto pequeño e independiente de parámetros de instrucciones, un único modelo de backbone congelado se puede adaptar para numerosas tareas simplemente intercambiando estos archivos de instrucciones ligeros en el momento de la inferencia.

Esta arquitectura "plug-and-play" es altamente modular y evita la necesidad de almacenar y administrar copias de modelos separadas de varios gigabytes para cada aplicación. Mitigación del olvido catastrófico: el refinamiento completo corre el riesgo de sobrescribir o degradar el conocimiento previamente entrenado de un modelo al aprender una nueva tarea.

Al mantener los pesos del modelo troncal completamente congelados, el ajuste de instrucción preserva el vasto repositorio de conocimientos generales aprendidos durante el entrenamiento previo, lo que permite reutilizar el modelo sin perder sus capacidades. Eficiencia de los datos: en comparación con el ajuste completo, que a menudo requiere grandes conjuntos de datos etiquetados para cada nueva tarea, el ajuste de la instrucción puede lograr un rendimiento sólido con conjuntos de datos más pequeños y modestos.

Limitaciones

A pesar de sus fortalezas, el ajuste rápido no está exento de inconvenientes, que incluyen limitaciones en el poder expresivo, dificultades de entrenamiento y falta de interpretabilidad de la interpretabilidad.

Poder expresivo limitado: una limitación teórica central es que la instrucción y el prefijo son menos expresivos que métodos como LoRA o el ajuste completo. El análisis formal ha demostrado que estos métodos funcionan agregando un sesgo a la salida de los bloques de atención, pero no pueden alterar fundamentalmente los patrones de atención aprendidos del modelo.

Esto significa que el ajuste rápido es muy eficaz para obtener y combinar habilidades ya presentes en el modelo, pero puede fallar en el aprendizaje de tareas verdaderamente novedosas que requieren nuevos patrones de razonamiento. Inestabilidad del entrenamiento y sensibilidad de los hiperparámetros: uno de los desafíos prácticos más importantes es la sensibilidad del método a los hiperparámetros.  

El proceso de entrenamiento puede ser difícil de converger y depende en gran medida de la elección de la tasa de aprendizaje y la estrategia y duración de inicialización rápida, lo que a menudo requiere un ajuste cuidadoso y extenso para lograr resultados óptimos. El problema de la "caja negra" de la interpretabilidad: una limitación importante y persistente es la falta inherente de interpretabilidad de las instrucciones suaves. Debido a que son vectores continuos de alta dimensión optimizados mediante descenso de gradiente, no corresponden a ningún texto legible por humanos.

Esta naturaleza de "caja negra" dificulta la comprensión de lo que ha aprendido la instrucción, por qué está dirigiendo el modelo de cierta manera y cómo depurarlo cuando falla. Dependencia de la escala del modelo: la eficacia del método original de ajuste de instrucciones a nivel de entrada se correlaciona con la escala del modelo troncal. Si bien se vuelve competitivo con un ajuste completo en modelos con más de 10 mil millones de parámetros, su rendimiento es significativamente en modelos más pequeños y de uso más común.

Casos de uso

Los principios de la instrucción han demostrado ser altamente adaptables, extendiéndose mucho más allá de sus aplicaciones iniciales en procesamiento de lenguaje natural. La técnica es ahora un habilitador clave para personalizar modelos de manera eficiente en dominios multimodales, procesamiento de voz y para paradigmas de aprendizaje avanzados.

Ajuste de instrucción multimodal (modelos de visión-lenguaje): El ajuste de instrucción es una técnica crítica para adaptar modelos de visión-lenguaje previamente entrenados, como CLIP, a tareas visuales posteriores. En este contexto, las instrucciones pueden diseñarse para una o ambas modalidades.7

Aplicaciones en el procesamiento del habla: el paradigma de ajuste de instrucciones se ha extendido con éxito al dominio del procesamiento del habla. En esta aplicación, una expresión de voz sin procesar se codifica en unidades acústicas discretas y se adjunta a esta secuencia un conjunto de instrucciones en pantalla que se pueden aprender y específicas de la tarea. Esta infraestructura está unificada y permite adaptar un modelo de voz previamente entrenado para una amplia gama de tareas. Esto incluye la detección de palabras clave, la clasificación de intenciones habladas e incluso el reconocimiento automático de voz (ASR), todo mientras se entrena solo una pequeña instrucción específica de la tarea.

Aprendizaje multitarea y multilingüe: Para mejorar aún más la eficiencia y la generalización, los investigadores han ido más allá del entrenamiento de instrucciones aisladas y de una sola tarea. Los métodos avanzados ahora se centran en aprender instrucciones compartidas que se pueden transferir a múltiples tareas o idiomas.

  • Ajuste de instrucciones multitarea (MPT): este enfoque destila el conocimiento de múltiples tareas de origen en una única instrucción compartida transferible. Esta instrucción compartida se puede adaptar de manera eficiente a las nuevas tareas objetivo, requiriendo tan solo el 0.035 % de los parámetros del modelo por tarea y mostrando un sólido rendimiento en escenarios de aprendizaje few-shot.
  • Ajuste multilingüe: los estudios sobre modelos multilingües han encontrado que el ajuste multitarea en una colección de conjuntos de datos e instrucciones solo en inglés puede mejorar significativamente el rendimiento zero-shot de un modelo en tareas en idiomas distintos del inglés. Este método demuestra que el modelo aprende habilidades de resolución de tareas que son, hasta cierto punto, independientes del lenguaje.

Conclusión

En el espacio de investigación de la inteligencia artificial, el machine learning y el ajuste de instrucción de IA generativa se ha convertido en un método crítico para el ajuste eficiente de los modelos de IA. A diferencia del entrenamiento completo del modelo, que altera todos los pesos del modelo y corre el riesgo de sobreajustarse con datos de entrenamiento limitados, esta técnica se centra en optimizar las instrucciones de entrada que se adjuntan al texto de entrada. A través de un proceso de automatización e iteración, el objetivo es descubrir una instrucción óptima que cree instrucciones efectivas para tareas específicas, un proceso cuyo éxito a menudo depende del tamaño del modelo. Este enfoque ofrece una alternativa escalable al reentrenamiento extensivo y complementa otras estrategias como RAG, consolidando su papel como piedra angular para personalizar los modelos fundacionales.

Soluciones relacionadas
IBM® watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Con la IA, IBM Concert muestra insights cruciales sobre operaciones y proporciona recomendaciones de mejora específicas de las aplicaciones. Descubra cómo Concert puede hacer avanzar su negocio.

Explore Concert Explore las soluciones de automatización de procesos de negocio
Notas de pie de página

[1] Li, Z., Su, Y. y Collier, N. (2025). Una encuesta sobre el ajuste rápido. arXiv preprint arXiv:2507.06085.

[2] Lester, B., Al-Rfou, R. y Constant, N. (2021, noviembre). El poder de la escala para un ajuste rápido de parámetros eficiente. En Actas de la conferencia 2021 sobre métodos empíricos en el procesamiento de lenguaje natural (págs. 3045-3059).

[3]Liu, X., Ji, K., Fu, Y., Tam, W., Du, Z., Yang, Z. y Tang, J. (2022, mayo). Ajuste P: el ajuste de instrucción puede ser comparable al ajuste fino en todas las escalas y tareas. En Actas de la 60.ª reunión anual de la Association for Computational Linguistics (Volumen 2: Artículos breves) (págs. 61-68).

[4] Lei, S., Hua, Y. y Zhihao, S. (2025). Revisando el ajuste fino: un estudio de técnicas eficientes en cuanto a parámetros para grandes modelos de IA.

[5] Bian, J., Peng, Y., Wang, L., Huang, Y. y Xu, J. (2025). Una encuesta sobre el ajuste fino eficiente de parámetros para modelos fundacionales en el aprendizaje federado. arXiv preprint arXiv:2504.21099.

[6] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., ... y Chen, W. (2022). Lora: Adaptación de bajo rango de modelos de lenguaje grandes. ICLR, 1(2), 3.

[7] Tian, Q. y Zhang, M. (2025). Mejorar el ajuste de instrucciones del lenguaje visual a través de la optimización del contexto guiada por conocimientos dispersos. Entropy, 27(3), 301.