La implementación de modelos de inteligencia artificial (IA) para tareas complejas como resumir informes, responder consultas o traducir documentos a menudo conlleva desafíos importantes. Estos modelos suelen requerir un amplio reentrenamiento con grandes conjuntos de datos anotados y costosos procesos de fine-tuning. Cada nueva tarea añade complejidad, ralentiza la innovación, aumenta los gastos y limita la escalabilidad de la IA en diversos casos de uso.
Ahora, imagine un enfoque diferente. ¿Y si un modelo de IA pudiera adaptarse a nuevas tareas al instante, sin necesidad de reentrenamiento ni datos adicionales? Esta es la promesa del aprendizaje en contexto (ICL) que permite a los modelos de IA aprender tareas de forma dinámica simplemente dando ejemplos en una instrucción. Elimina los cuellos de botella del machine learning (ML) tradicional y ofrece soluciones más rápidas, adaptables y rentables.
El aprendizaje en contexto (ICL) es una capacidad avanzada de IA introducida en el artículo de investigación seminal "Language Models are Few-Shot Learners", que presentó GPT-31. A diferencia del aprendizaje supervisado, en el que un modelo se somete a una fase de entrenamiento con retropropagación para alterar sus parámetros, el ICL se basa completamente en modelos de lenguaje preentrenados y mantiene sus parámetros sin cambios.
El modelo de IA utiliza la instrucción como guía temporal para inferir la tarea y generar el resultado. El ICL funciona reconociendo las relaciones entre los ejemplos de la instrucción, también conocidas como pares de entrada/salida, y aplicando la misma correlación a las nuevas entradas. Este proceso imita el razonamiento humano, en el que resolvemos nuevos problemas extrayendo analogías de experiencias anteriores. Aprovecha los patrones y los conocimientos aprendidos durante el preentrenamiento y se adapta dinámicamente a las nuevas tareas, lo que lo hace muy flexible y eficiente.
En esencia, el aprendizaje en contexto funciona condicionando un modelo de lenguaje de gran tamaño (LLM) en una instrucción que incluye un conjunto de ejemplos (pares de entrada/salida o ejemplos en contexto) normalmente escritos en lenguaje natural como parte de la secuencia de entrada. Estos ejemplos, a menudo extraídos de un conjunto de datos, no se utilizan para volver a entrenar el modelo, sino que se introducen directamente en su ventana de contexto. Esta ventana muestra la cantidad de texto que un LLM puede procesar a la vez, actuando como su memoria temporal para generar respuestas coherentes y es la parte del modelo que procesa la entrada secuencial.
Formalmente, supongamos que la instrucción consta de k ejemplos en forma de pares de entrada/salida:
C={(x1 ,y1 ),(x2 ,y2 ),...,(xk ,yk )}
Dada una nueva entrada x y un espacio de salida candidato Y={y1,...,ym}, el modelo calcula la probabilidad de cada posible output condicionada a la instrucción:
P(yj ∣ x,C)
La predicción se determina eligiendo la opción con la mayor probabilidad:
El modelo no actualiza sus ponderaciones durante este proceso. En su lugar, aprovechando su arquitectura del transformador de deep learning, el modelo aprende el patrón dinámicamente utilizando solo los ejemplos de la instrucción actual.
Para ver este método en la práctica, considere una tarea de clasificación de sentimientos. La instrucción podría tener este aspecto:
Reseña: La película fue fantástica → Sentimiento: Positivo
Reseña: Odiaba la historia → Sentimiento: Negativo
Reseña: La música era agradable → Sentimiento:
El modelo completa la última línea prediciendo "Positivo", continuando la estructura observada en las asignaciones anteriores de etiquetas de entrada. Este ejemplo muestra el aprendizaje few-shot, en el que el modelo infiere la tarea y genera respuestas adecuadas basadas en unos pocos ejemplos.
Dado que el éxito del modelo de IA depende de lo que se muestra en la instrucción, el prompt engineering desempeña un papel crítico en el ICL. El prompt engineering se refiere a la elaboración de instrucciones de alta calidad, informativas y bien estructuradas que guíen el modelo de forma eficaz. Las instrucciones suelen utilizar plantillas de lenguaje natural, que se eligen cuidadosamente para que coincidan con lo que el modelo ha visto durante la exposición de datos previa al entrenamiento. Las variaciones en la redacción, el formato de la etiqueta, el orden de los ejemplos e incluso la puntuación pueden afectar el rendimiento del modelo, especialmente en modelos más pequeños o casos extremos.
Es importante destacar que el prompt engineering no es un mecanismo separado, sino un conjunto de técnicas que operan dentro del concepto más amplio de aprendizaje en contexto. Por ejemplo:
Zero-shot prompting: la tarea se explica sin proporcionar ningún ejemplo
One-shot prompting: solo se incluye un ejemplo para ilustrar la tarea
Few-shot prompting: se proporcionan varios ejemplos
Prompting de cadena de pensamiento: cada ejemplo incluye pasos de razonamiento intermedios para guiar la lógica del modelo
Estas estrategias de instrucciones a menudo se combinan con diseños de instrucciones few-shot y se evalúan en referencias que prueban la generalización en referencia. Incluso los pares de entrada/salida con etiquetas aleatorias pueden mejorar el rendimiento, lo que pone de relieve que el formato y la distribución de la instrucción son tan importantes como las propias etiquetas.
A medida que avanzamos más allá de las instrucciones controladas del ICL hacia sistemas complejos del mundo real, el reto pasa de crear entradas estáticas a practicar la ingeniería contextual. Es una disciplina emergente centrada en el diseño sistemático de todas las entradas que un LLM necesita para funcionar de forma fiable en escenarios del mundo real.
La ingeniería de contexto es la práctica de diseñar sistemas dinámicos que ensamblan y entregan la información, las herramientas y las instrucciones adecuadas a un LLM en el formato adecuado para permitirle completar una tarea de forma fiable. A diferencia del prompt engineering estático, la ingeniería de contexto se centra en la construcción de entradas completas y relevantes para la tarea a partir de múltiples fuentes, como la entrada del usuario, interacciones anteriores, salidas de herramientas y datos externos en tiempo de ejecución. Garantiza que los LLM no solo reciban los datos necesarios, sino también en una estructura que puedan interpretar eficazmente. Este enfoque es crítico en sistemas complejos y agentivos en los que los fallos suelen deberse a la falta de un contexto o a un formato deficiente más que a las limitaciones del modelo. Al integrar herramientas, mecanismos de recuperación y memoria en el proceso de construcción de instrucciones, la ingeniería de contexto cierra la brecha entre el potencial de un modelo y su rendimiento en el mundo real.
Si bien las primeras explicaciones consideraban que el ICL era una repetición de patrones a nivel superficial o una predicción del siguiente token, las investigaciones más recientes sugieren procesos más profundos. Una explicación convincente enmarca el ICL como una forma de inferencia bayesiana, un método para estimar probabilidades actualizando creencias con evidencia2. En esta vista, el modelo analiza ejemplos puntuales o puntuales e infiere un concepto latente (una tarea o estructura invisible, como "esto es una clasificación de sentimientos") a partir de la instrucción. A medida que se añaden más ejemplos en contexto, el modelo adquiere más confianza en la tarea que está realizando, mejorando sus predicciones sin cambiar los parámetros de su modelo.
Otra explicación vincula el ICL con el descenso de gradiente, el método de optimización central detrás de la mayoría de los sistemas de machine learning para minimizar los errores. Estudios recientes han demostrado que los modelos de transformadores pueden simular internamente el proceso de aprendizaje, especialmente para tareas simples como la regresión lineal. Aunque no se producen actualizaciones reales de parámetros, el modelo se comporta como si se estuviera ajustando a la instrucción mediante un bucle interno de razonamiento. Este proceso ocurre completamente dentro de la ventana de contexto del modelo.
Estos hallazgos sugieren que el ICL implica un comportamiento interno similar al aprendizaje durante la inferencia, incluso en configuraciones zero-shot o few-shot. En lugar de ser predictores estáticos, los LLM se adaptan a la estructura de tareas en tiempo real mediante el uso de instrucciones en lenguaje natural. Esta combinación de inferencia y aprendizaje implícito hace que el ICL sea una forma poderosa de abordar nuevas tareas sin volver a entrenar.
1. Escala del modelo y sensibilidad de los parámetros
La eficacia del ICL depende en gran medida de la escala y el diseño de los LLM. Los modelos más grandes demuestran capacidades emergentes más sólidas en el ICL. Mientras que los modelos más pequeños a menudo tienen dificultades para igualar las capacidades de aprendizaje en contexto, ya que carecen de la capacidad de parámetros para modelar tareas complejas de manera efectiva.
2. Calidad y sesgo de los datos previos al entrenamiento
La eficacia del aprendizaje en contexto depende de la variedad y calidad de los datos previos al entrenamiento. Los modelos entrenados en conjuntos de datos estrechos o sesgados pueden replicar esas limitaciones durante la inferencia, lo que conduce a problemas de generalización y equidad deficientes.
3. Transferencia de dominio y generalización
Aunque los LLM muestran una adaptabilidad impresionante, su rendimiento puede degradarse en tareas muy específicas del dominio. Para campos especializados como el derecho o la medicina, pueden ser necesarias demostraciones específicas de dominio o incluso ajustes tradicionales.
4. Ética y equidad
El ICL puede transmitir y reforzar involuntariamente los sesgos sociales presentes en los datos de entrenamiento. Dado que las instrucciones pueden influir en el comportamiento del modelo, garantizar salidas éticas y justas en interacciones dinámicas y en tiempo real sigue siendo un gran desafío.
5. Preocupaciones por la privacidad y la seguridad
Los sistemas basados en el ICL que funcionan en aplicaciones del mundo real pueden memorizar o reproducir inadvertidamente información confidencial si dichos datos estaban presentes en el corpus de preentrenamiento. Esta posibilidad plantea problemas críticos de privacidad, especialmente en los ámbitos sanitario, legal y de asistente personalizado.
6. Sensibilidad y estabilidad de instrucciones
El ICL es sensible al diseño de instrucciones. Pequeños cambios en el número, el orden o el formato de los ejemplos en contexto pueden provocar grandes cambios en el resultado, lo que dificulta garantizar un rendimiento coherente.
1. Modelos de entrenamiento
Para que los LLM sean intrínsecamente mejores en el aprendizaje en contexto, los investigadores están explorando mejoras durante o inmediatamente después del entrenamiento del modelo3. Una vía importante es el preentrenamiento con datos estructurados, en el que se organizan explícitamente pares de entrada/salida o clústeres de tareas. Este enfoque ayuda a los modelos a ser más sensibles a los patrones y relaciones de las tareas, en lugar de depender únicamente de distribuciones lingüísticas amplias.
Otro enfoque eficaz es la metadestilación, en la que el modelo se expone a formas de conocimiento destiladas y abstractas; pares de ejemplos breves y muy informativos que transmiten la esencia de una tarea (por ejemplo, "Argumento fuerte → positivo", "Actuación débil → negativo"). Este método permite que los modelos generalicen rápidamente durante la inferencia con una sobrecarga de demostración mínima.
El entrenamiento de calentamiento afina el modelo entre el preentrenamiento y la inferencia real mediante el uso de ejemplos alineados con tareas en forma de instrucción. Por ejemplo, ver algunos ejemplos de "Título → Categoría" antes de las pruebas aumenta su capacidad de generalizar contenido relacionado sin volver a entrenar.
El ajuste de instrucciones es otra estrategia crítica, en la que los modelos se entrenan utilizando miles de tareas escritas como instrucciones en lenguaje natural (por ejemplo, "Clasificar el estado de ánimo de la oración"). Esta estrategia mejora la generalización de few-shot y zero-shot al alinear el comportamiento del modelo más estrechamente con la guía humana.
2. Diseño de la instrucción
El diseño de instrucciones durante la inferencia desempeña un papel fundamental en el aprovechamiento del ICL. Una de las técnicas más impactantes es la selección de demostración; elegir los ejemplos correctos utilizando métricas de similitud, puntuaciones de incertidumbre o perros perdigueros entrenados.
El reformateo de demostración modifica la forma en que se estructuran los ejemplos. En lugar de simples pares de entrada/output, algunos métodos utilizan cadenas de razonamiento (por ejemplo, "Premisa → Razonamiento → Conclusión") para mejorar la alineación con las representaciones internas del modelo.
Otro factor sutil pero importante es el pedido de demostración. Organizar ejemplos de simples a complejos, como comenzar con una instrucción de impresión de programación básica antes de progresar a bucles, ayuda al modelo a construir contexto gradualmente, mejorando la comprensión y la calidad de salida.
Por último, el formateo de instrucciones y las indicaciones de cadena de pensamiento mejoran las tareas de razonamiento pesado al guiar explícitamente el modelo a través de pasos intermedios. Este enfoque es especialmente útil en dominios como la aritmética o el razonamiento lógico, donde un desglose como "Paso 1: Resta 3 de 8 → Paso 2: La respuesta es 5" mejora la precisión en comparación con los formatos directos de pregunta-respuesta.
Detección de anomalías: mediante el aprendizaje en contexto, los LLM pueden recibir algunos ejemplos etiquetados de actividad de red normal y anómala. A continuación, el modelo puede clasificar con precisión las nuevas instancias de tráfico como normales o sospechosas, lo que permite una monitorización flexible y eficiente sin un reentrenamiento extenso. Este enfoque se puede aplicar ampliamente a diversas tareas de ciberseguridad y gestión de redes.
Por ejemplo, un artículo de investigación presentó un ejemplo de aplicación del aprendizaje en contexto con LLM, específicamente GPT-4, para la detección automática de intrusiones en la red en entornos inalámbricos4. En lugar de los métodos tradicionales que requieren extensos datos etiquetados y costosos ajustes, diseñaron tres enfoques de aprendizaje en contexto: ilustrativo, heurístico e interactivo. Estos métodos guían a GPT-4 para identificar los tipos de ataque proporcionando algunos ejemplos etiquetados dentro de las instrucciones e incorporando preguntas específicas del dominio para mejorar la precisión. Probado en un conjunto de datos real con nueve tipos de ataques DDoS, los resultados mostraron mejoras de rendimiento. Estas mejoras mostraron aumentos de precisión y F1-Score de alrededor del 90 %, con GPT-4 alcanzando más del 95 % con solo diez ejemplos. Este ejemplo demuestra cómo el aprendizaje en contexto permite a los LLM adaptarse rápidamente y funcionar eficazmente en escenarios de ciberseguridad del mundo real con datos de entrenamiento mínimos.
Procesamiento del lenguaje natural (PLN) específico del dominio: el ICL permite a los LLM desempeñarse bien en tareas especializadas mediante el uso de ejemplos relevantes dentro de la instrucción. Este enfoque resuelve el desafío de las tareas de procesamiento del lenguaje natural (PLN) específicas del dominio en las que los datos etiquetados pueden ser escasos o en las que el ajuste fino no es práctico. Esta ruta permite que el modelo se adapte y genere resultados precisos basados únicamente en las señales contextuales proporcionadas durante la inferencia.
Un estudio demuestra que los LLM pueden analizar eficazmente los informes de seguridad aérea a través del ICL, abordando desafíos como la dispersión semántica y la necesidad de un fine-tuning computacionalmente costoso5. El estudio utilizó BM25 (un algoritmo de recuperación de información utilizado para clasificar documentos en función de su relevancia para una consulta de búsqueda) para seleccionar los ejemplos más relevantes para las instrucciones. El modelo mejoró significativamente su precisión de clasificación al lograr hasta un 80,24 % de precisión y un 84,15 % de puntuación F1 con ocho ejemplos. Al proporcionar ejemplos relevantes y de alta calidad dentro de la instrucción, el modelo puede generalizar su comprensión para clasificar con precisión informes no vistos. Aumentar el número de ejemplos bien elegidos suele mejorar el rendimiento, ya que el modelo gana más contexto y captura mejor los patrones subyacentes en los datos. Este enfoque muestra que el ICL con selección estratégica de ejemplos permite a los LLM comprender y clasificar datos de aviación especializados de manera efectiva, proporcionando una solución práctica para tareas de PLN específicas del dominio.
Análisis de sentimiento: el ICL permite a los LLM analizar el sentimiento proporcionando un puñado de muestras de texto etiquetadas (por ejemplo, "Gran servicio → positivo", "Pésimo producto → negativo"). Cuando se le da una frase nueva y sin etiquetar, el modelo puede inferir el sentimiento con gran precisión. Este enfoque agiliza las tareas de análisis de experiencias del cliente, minería de opiniones y monitorización de la marca.
El aprendizaje en contexto representa un cambio fundamental en la forma en que interactuamos y extraemos inteligencia de modelos de lenguaje de gran tamaño. Esto permite que los modelos se adapten dinámicamente a nuevas tareas mediante el uso de descripciones de tareas y algunos ejemplos, el ICL aporta flexibilidad, eficiencia y accesibilidad a los sistemas de IA. Cierra la brecha entre los modelos estáticos y preentrenados y las necesidades dinámicas del mundo real, lo que permite que un solo modelo realice una amplia gama de tareas simplemente observando algunos ejemplos. A medida que avanza la investigación en algoritmos de aprendizaje, estrategias de preentrenamiento, diseño de instrucciones y optimización de demostraciones, el ICL está a punto de convertirse en la piedra angular de la IA de uso general, allanando el camino para sistemas más adaptables, interpretables y escalables en todos los sectores.
1. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... y Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems. 33. 1877-1901.
2. Xie, SM y Min, S. (2022). How does in-context learning work? A framework for understanding the differences from traditional supervised learning. A framework for understanding the differences from traditional supervised learning.
3. Dong, Q., Li, L., Dai, D., Zheng, C., Ma, J., Li, R., ... y Sui, Z. (2022). A survey on in-context learning. arXiv. Preimpresión de arXiv:2301.00234.
4. Zhang, H., Sediq, AB, Afana, A. y Erol-Kantarci, M. (2024). Large language models in wireless application design: In-context learning-enhanced automatic network intrusion detection. arXiv. Preimpresión de arXiv:2405.11002.
5. Yang, Y., Shi, D., Zurada, J., y Guan, J. (Septiembre de 2024). Application of Large Language Model and In-Context Learning for Aviation Safety Prediction. En la 2024 17th International Conference on Advanced Computer Theory and Engineering (ICACTE) (pp. 361-365). IEEE.