El despliegue de modelos de inteligencia artificial (IA) para tareas complejas, como resumir informes, responder consultas o traducir documentos, a menudo conlleva desafíos importantes. Estos modelos suelen requerir un amplio reentrenamiento con grandes conjuntos de datos anotados y costosos procesos de ajuste. Cada nueva tarea agrega complejidad, ralentiza la innovación, aumenta los gastos y limita la escalabilidad de la IA en diversos casos de uso.
Ahora, imagine un enfoque diferente. ¿Y si un modelo de IA pudiera adaptarse a nuevas tareas al instante, sin necesidad de volver a entrenar ni de datos adicionales? Esta es la promesa del aprendizaje en contexto (ICL) que permite que los modelos de IA aprendan tareas dinámicamente simplemente dando ejemplos en una instrucción. Elimina los cuellos de botella del machine learning (ML) y ofrece soluciones más rápidas, adaptables y rentables.
El aprendizaje en contexto (ICL) es una capacidad avanzada de IA introducida en el documento de investigación seminal “Language Models are Few-Shot Learners”, que presentó GPT-3.1 A diferencia del aprendizaje supervisado, donde un modelo se somete a una fase de entrenamiento con retropropagación para alterar sus parámetros, el ICL se basa completamente en modelos de lenguaje previamente entrenados y mantiene sus parámetros sin cambios.
El modelo de IA utiliza la instrucción como guía temporal para inferir la tarea y generar el resultado esperado. El ICL funciona reconociendo las relaciones entre los ejemplos en la instrucción, también conocidas como pares de entrada/salida, y aplicando la misma asignación a nuevas entradas. Este proceso imita el razonamiento humano, donde resolvemos nuevos problemas dibujando analogías de experiencias previas. Aprovecha los patrones y los conocimientos aprendidos durante el entrenamiento previo y se adapta dinámicamente a las nuevas tareas, lo que lo hace muy flexible y eficiente.
En esencia, el aprendizaje en contexto funciona condicionando un modelo de lenguaje grande en una instrucción que incluye un conjunto de ejemplos (pares de entrada/resultados o ejemplos en contexto) generalmente escritos en lenguaje natural como parte de la secuencia de entrada. Estos ejemplos, a menudo extraídos de un conjunto de datos, no se utilizan para volver a entrenar el modelo, sino que se introducen directamente en su ventana de contexto. Esta ventana muestra la cantidad de texto que un LLM puede procesar a la vez, actuando como su memoria temporal para generar respuestas coherentes y es la parte del modelo que procesa la entrada secuencial.
Formalmente, dejemos que la instrucción consista en k ejemplos en forma de pares de entrada/salida:
C={(x1 ,y1 ),(x2 ,y2 ),...,(xk ,yk )}
Dada una nueva entrada x y un espacio de salida candidato Y={y1,...,ym}, el modelo calcula la probabilidad de cada salida posible condicionada a la instrucción:
P(yj ∣ x,C)
La predicción se determina eligiendo la opción con la mayor probabilidad:
El modelo no actualiza sus ponderaciones durante este proceso. En su lugar, aprovechando su arquitectura transformadora de aprendizaje profundo, el modelo aprende el patrón dinámicamente utilizando solo los ejemplos en la instrucción actual.
Para ver este método en la práctica, considere una tarea de clasificación de sentimientos. La instrucción podría verse así:
Comentario: La película fue fantástica → Sentimiento: Positivo
Comentario: Odié la historia → Sentimiento: Negativo
Comentario: La música era agradable → Sentimiento:
El modelo completa la última línea prediciendo "Positivo", continuando la estructura observada en las asignaciones anteriores de etiquetas de entrada. Este ejemplo muestra el aprendizaje few-shot, donde el modelo infiere la tarea y genera respuestas adecuadas basadas en algunos ejemplos.
Dado que el éxito del modelo de IA depende de lo que se muestra en la instrucción, la ingeniería rápida desempeña una función crítica en el ICL. La ingeniería rápida se refiere a la elaboración de instrucciones de alta calidad, informativas y bien estructuradas que guíen el modelo de manera eficaz. Las instrucciones suelen utilizar plantillas de lenguaje natural, que se eligen cuidadosamente para que coincidan con lo que el modelo ha visto durante la exposición de datos previa al entrenamiento. Las variaciones en la redacción, el formato de la etiqueta, el orden de los ejemplos e incluso la puntuación pueden afectar el rendimiento del modelo, especialmente en modelos más pequeños o casos extremos.
Es importante destacar que la ingeniería rápida no es un mecanismo separado, sino un conjunto de técnicas que operan dentro del concepto más amplio del aprendizaje en contexto. Por ejemplo:
Zero-shot prompting: la tarea se explica sin proporcionar ningún ejemplo
One-shot prompting: solo se incluye un ejemplo para ilustrar la tarea
Few-shot prompting: se proporcionan varios ejemplos
Chain-of-thought prompting: cada ejemplo incluye pasos de razonamiento intermedios para guiar la lógica del modelo
Estas estrategias de prompting a menudo se combinan con diseños few-shot prompting y se evalúan en puntos de referencia que prueban la generalización. Incluso los pares de entrada/salida con etiquetas aleatorias pueden mejorar el rendimiento, destacando que el formato y la distribución de la instrucción son tan importantes como las propias etiquetas.
A medida que avanzamos más allá de las indicaciones del ICL controladas hacia sistemas complejos del mundo real, el desafío pasa de crear entradas estáticas a practicar la ingeniería de contexto. Es una disciplina emergente centrada en el diseño sistemático de todas las entradas que un LLM necesita para funcionar de manera confiable en escenarios del mundo real.
La ingeniería de contexto es la práctica de diseñar sistemas dinámicos que ensamblan y entregan la información, las herramientas y las instrucciones correctas a un LLM en el formato correcto para permitirle completar una tarea de manera confiable. A diferencia de la ingeniería rápida estática, la ingeniería de contexto se centra en construir entradas completas y relevantes para la tarea a partir de múltiples fuentes, como la entrada del usuario, interacciones anteriores, resultados de herramientas y datos externos en tiempo de ejecución. Garantiza que los LLM no solo reciban los datos necesarios, sino también una estructura que puedan interpretar de manera efectiva. Este enfoque es crítico en sistemas complejos y agénticos donde las fallas a menudo se derivan de un contexto faltante o mal formateado en lugar de limitaciones del modelo. Al integrar herramientas, mecanismos de recuperación y memoria en el proceso de construcción de instrucciones, la ingeniería de contexto cierra la brecha entre el potencial de un modelo y su rendimiento en el mundo real.
Si bien las primeras explicaciones consideraban que el ICL era una repetición de patrones a nivel superficial o una predicción del siguiente token, las investigaciones más recientes sugieren procesos más profundos. Una explicación convincente enmarca el ICL como una forma de inferencia bayesiana, un método para estimar probabilidades actualizando creencias con evidencia.2 En esta vista, el modelo analiza ejemplos de few-shot o one-shot e infiere un concepto latente (una tarea o estructura invisible, como "esta es la clasificación de sentimientos") a partir de la instrucción. A medida que se agregan más ejemplos en contexto, el modelo se vuelve más seguro de la tarea que está realizando, mejorando sus predicciones sin cambiar los parámetros del modelo.
Otra explicación vincula el ICL con el descenso del gradiente, el método de optimización central detrás de la mayoría de los sistemas de machine learning para minimizar los errores. Estudios recientes han demostrado que los modelos transformadores pueden simular internamente el proceso de aprendizaje, especialmente para tareas simples como la regresión lineal. Aunque no se producen actualizaciones reales de parámetros, el modelo se comporta como si se estuviera ajustando a la instrucción mediante un bucle interno de razonamiento. Este proceso ocurre completamente dentro de la ventana de contexto del modelo.
Estos hallazgos sugieren que el ICL implica un comportamiento interno similar al aprendizaje durante la inferencia, incluso en configuraciones zero-shot o few-shot. En lugar de ser predictores estáticos, los LLM se adaptan a la estructura de tareas en tiempo real mediante el uso de instrucciones en lenguaje natural. Esta combinación de inferencia y aprendizaje implícito hace que el ICL sea una forma poderosa de abordar nuevas tareas sin volver a entrenar.
1. Escala del modelo y sensibilidad de los parámetros
La eficacia del ICL está fuertemente influenciada por la escala y el diseño de los LLM. Los modelos más grandes demuestran capacidades emergentes más sólidas en el ICL. Mientras que los modelos más pequeños a menudo tienen dificultades para igualar las capacidades de aprendizaje en contexto, ya que carecen de la capacidad de parámetros para modelar tareas complejas de manera efectiva.
2. Calidad y sesgo de los datos previos al entrenamiento
La eficacia del aprendizaje en contexto depende de la variedad y la calidad de los datos previos al entrenamiento. Los modelos entrenados en conjuntos de datos sesgados o estrechos pueden replicar esas limitaciones durante la inferencia, lo que lleva a problemas de generalización y equidad deficientes.
3. Transferencia de dominio y generalización
Si bien los LLM muestran una adaptabilidad impresionante, su rendimiento puede degradarse en tareas altamente específicas del dominio. Para campos especializados, como el derecho o la medicina, podrían ser necesarias demostraciones específicas de dominio o incluso ajustes tradicionales.
4. Ética y equidad
El ICL puede transmitir y reforzar involuntariamente los sesgos sociales presentes en los datos de entrenamiento. Debido a que las instrucciones pueden influir en el comportamiento del modelo, garantizar resultados éticos y justos en interacciones dinámicas en tiempo real sigue siendo un gran desafío.
5. Preocupaciones de privacidad y seguridad
Los sistemas basados en el ICL que operan en aplicaciones del mundo real pueden memorizar o reproducir inadvertidamente información confidencial si dichos datos estaban presentes en el corpus previo al entrenamiento. Esta posibilidad plantea problemas críticos de privacidad, especialmente en los dominios de atención médica, legal y asistente personalizado.
6. Sensibilidad y estabilidad de las instrucciones
El ICL es sensible al diseño de instrucciones. Pequeños cambios en el número, el orden o el formato de los ejemplos en contexto pueden provocar grandes cambios en los resultados, lo que dificulta garantizar un rendimiento constante.
1. Modelos de entrenamiento
Para que los LLM sean inherentemente mejores en el aprendizaje en contexto, los investigadores están explorando mejoras durante el entrenamiento del modelo o inmediatamente después.3 Una dirección importante es el entrenamiento previo con datos estructurados, donde los pares de entrada/salida o los clústeres de tareas se organizan explícitamente. Este enfoque ayuda a que los modelos sean más sensibles a los patrones y relaciones de las tareas, en lugar de depender únicamente de distribuciones de lenguaje amplias.
Otro enfoque eficaz es la metadestilación, en la que el modelo se expone a formas de conocimiento destiladas y abstractas; pares de ejemplos breves y muy informativos que transmiten la esencia de una tarea (por ejemplo, “Argumento fuerte → positivo”, “Actuación débil → negativo”). Este método permite que los modelos generalicen rápidamente durante la inferencia con una sobrecarga de demostración mínima.
El entrenamiento de preparación ajusta el modelo entre el entrenamiento previo y la inferencia real mediante el uso de ejemplos alineados con tareas en forma de instrucción. Así, ver algunos ejemplos de “Título → Categoría” antes de la prueba aumenta su capacidad de generalizar a contenido relacionado sin volver a entrenar.
El ajuste de instrucciones es otra estrategia crítica, donde los modelos se entrenan mediante el uso de miles de tareas escritas como instrucciones de lenguaje natural (por ejemplo, "Clasificar el estado de ánimo de la oración"). Esta estrategia mejora la generalización de few-shot y zero-shot al alinear el comportamiento del modelo más estrechamente con la orientación humana.
2. Diseño de instrucciones
El diseño de instrucciones durante la inferencia desempeña un papel fundamental en el aprovechamiento del ICL. Una de las técnicas más impactantes es la selección de demostración; elegir los ejemplos correctos mediante el uso de métricas de similitud, puntuaciones de incertidumbre o recuperadores entrenados.
El reformateo de demostración modifica la manera en que se estructuran los ejemplos. En lugar de simples (pares de entrada/salida), algunos métodos utilizan cadenas de razonamiento (por ejemplo, “Premisa → Razonamiento → Conclusión”) para mejorar la alineación con las representaciones internas del modelo.
Otro factor sutil, pero importante es el pedido de demostraciones. Organizar ejemplos de simples a complejos, como comenzar con una instrucción de impresión de programación básica antes de avanzar a los bucles, ayuda al modelo a construir contexto gradualmente, mejorando la comprensión y la calidad de los resultados.
Por último, el formato de instrucciones y chain-of-thought prompting mejoran las tareas de mucho razonamiento al guiar explícitamente el modelo a través de pasos intermedios. Este enfoque es especialmente útil en dominios como el razonamiento aritmético o lógico, donde un desglose como “Paso 1: Restar 3 de 8 → Paso 2: La respuesta es 5” mejora la precisión en comparación con los formatos directos de pregunta-respuesta.
Detección de anomalías: al usar el aprendizaje en contexto, se pueden proporcionar a los LLM algunos ejemplos etiquetados de actividad de red normal y anómala. Luego, el modelo puede clasificar con precisión las nuevas instancias de tráfico como normales o sospechosas, lo que permite un monitoreo flexible y eficiente sin un reentrenamiento extenso. Este enfoque se puede aplicar ampliamente a diversas tareas de ciberseguridad y gestión de redes.
Por ejemplo, un documento de investigación presentó un ejemplo de aplicación de aprendizaje en contexto con LLM, específicamente GPT-4, para la detección automática de intrusiones en la red en entornos inalámbricos.4 En lugar de los métodos tradicionales que requieren una gran cantidad de datos etiquetados y costosos ajustes, diseñaron tres enfoques de aprendizaje en contexto: ilustrativo, heurístico e interactivo. Estos métodos guían a GPT-4 para identificar los tipos de ataque proporcionando algunos ejemplos etiquetados dentro de las instrucciones e incorporando preguntas específicas del dominio para mejorar la precisión. Probado en un conjunto de datos real con 9 tipos de ataques de denegación distribuida del servicio, los resultados mostraron mejoras en el rendimiento. Estas mejoras mostraron aumentos de precisión y puntuación F1 de alrededor del 90 %, con GPT-4 alcanzando más del 95 % con solo 10 ejemplos. Este ejemplo demuestra cómo el aprendizaje en contexto permite que los LLM se adapten rápidamente y se desempeñen de manera efectiva en escenarios de ciberseguridad del mundo real con datos de entrenamiento mínimos.
Procesamiento de lenguaje natural (PLN) específico del dominio: el ICL permite que los LLM se desempeñen bien en tareas especializadas mediante el uso de ejemplos relevantes dentro de la instrucción. Este enfoque resuelve el desafío de las tareas de procesamiento de lenguaje natural (PLN) específico del dominio donde los datos etiquetados pueden ser escasos o donde el ajuste no es práctico. Esta ruta permite que el modelo se adapte y genere resultados precisos basados únicamente en las señales contextuales proporcionadas durante la inferencia.
Un estudio demuestra que los LLM pueden analizar eficazmente los informes de seguridad aérea a través del ICL, abordando desafíos como la escasez semántica y la necesidad de un ajuste computacionalmente costoso.5 El estudio utilizó BM25 (un algoritmo de recuperación de información utilizado para clasificar documentos en función de su relevancia para una consulta de búsqueda) para seleccionar los ejemplos más relevantes para las instrucciones. El modelo mejoró significativamente su precisión de clasificación al lograr hasta un 80.24 % de precisión y un 84.15 % de puntuación F1 con ocho ejemplos. Al proporcionar ejemplos relevantes y de alta calidad dentro de la instrucción, el modelo puede generalizar su comprensión para clasificar con precisión informes no vistos. Aumentar el número de ejemplos bien elegidos suele mejorar el rendimiento, ya que el modelo obtiene más contexto y captura mejor los patrones subyacentes en los datos. Este enfoque muestra que el ICL con selección estratégica de ejemplos permite a los LLM comprender y clasificar datos de aviación especializados de manera efectiva, proporcionando una solución práctica para tareas de PLN específicas de dominio.
Análisis de sentimiento: el ICL permite a los LLM analizar el sentimiento al proporcionar unas cuantas muestras de texto etiquetadas (por ejemplo, “Gran servicio → positivo”, “Producto terrible → negativo”). Cuando se le da una oración nueva y sin etiquetar, el modelo puede inferir el sentimiento con alta precisión. Este enfoque agiliza las tareas de analytics de la experiencia del cliente, minería de opiniones y monitoreo de marca.
El aprendizaje en contexto representa un cambio fundamental en la forma en que interactuamos y extraemos inteligencia de grandes modelos de lenguaje. Esto permite que los modelos se adapten dinámicamente a nuevas tareas mediante el uso de descripciones de tareas y algunos ejemplos. El ICL aporta flexibilidad, eficiencia y accesibilidad a los sistemas de IA. Cierra la brecha entre los modelos estáticos y previamente entrenados y las necesidades dinámicas del mundo real, lo que permite que un solo modelo realice una amplia gama de tareas simplemente observando algunos ejemplos. A medida que avanza la investigación en algoritmos de aprendizaje, estrategias de preentrenamiento, diseño de instrucción y optimización de demostraciones, el ICL está preparado para convertirse en la piedra angular de la IA de uso general, allanando el camino para sistemas más adaptables, interpretables y escalables en todas las industrias.
1. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
2. Xie, S. M., & Min, S. (2022). How does in-context learning work? A framework for understanding the differences from traditional supervised learning. A framework for understanding the differences from traditional supervised learning.
3. Dong, Q., Li, L., Dai, D., Zheng, C., Ma, J., Li, R., ... & Sui, Z. (2022). A survey on in-context learning. arXiv preprint arXiv:2301.00234.
4. Zhang, H., Sediq, A. B., Afana, A., & Erol-Kantarci, M. (2024). Large language models in wireless application design: In-context learning-enhanced automatic network intrusion detection. arXiv preprint arXiv:2405.11002.
5. Yang, Y., Shi, D., Zurada, J. & Guan, J. (septiembre de 2024). Application of Large Language Model and In-Context Learning for Aviation Safety Prediction. En 2024 17th International Conference on Advanced Computer Theory and Engineering (ICACTE) (pp. 361-365). IEEE.