¿Qué es el directional stimulus prompting (DSP)?

Autor

Shalini Harkar

Lead AI Advocate

¿Qué es directional stimulus prompting (DSP)?

El directional stimulus prompting (DSP) es una nueva metodología de prompting en el procesamiento del lenguaje natural (PLN) en la que se presenta un modelo con un estímulo directivo o estructurado para generar los resultados deseados.

A diferencia de los prompting estándar, como los one-shot, zero-shot o few-shot prompting, este enfoque se distingue por dar un control directo sobre la salida del modelo estableciendo criterios o proporcionando instrucción. En este enfoque, un estímulo guía actúa como mecanismo de control del proceso generativo del modelo a lo largo de líneas definidas por un determinado criterio.

El directional stimulus prompting (DSP) es útil cuando una tarea requiere un conjunto específico de respuestas, muy sensibles al contexto, pero aún sin datos etiquetados.

Por ejemplo, en el caso de las tareas de resumen, en las que retener la información esencial es crucial, el DSP proporciona un estímulo guía que empuja al modelo a producir de una manera específica. Esto conduce a la generación general de resúmenes más precisos y contextualmente apropiados1.

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de los sectores, herramientas de IA y tendencias emergentes en prompt engineering con el boletín Think. Además, acceda a nuevos artículos explicativos, tutoriales y conocimientos de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Necesidad de directional stimulus prompting

Los modelos de lenguaje de gran tamaño (LLM) como GPT-3, 4 y PaLM se denominan comúnmente modelos de "caja negra" porque los usuarios no tienen acceso a sus componentes internos, como parámetros, métodos de ajuste o procesos de toma de decisiones.

Dicha interacción se realiza esencialmente a través de instrucciones de texto que utilizan llamadas a la interfaz de programación de aplicaciones (API) como los principales mecanismos de entrada y salida. Aunque estos modelos son bastante excelentes, su capacidad para producir resultados precisos específicos de la tarea suele depender en gran medida de la calidad de las instrucciones2, 3.

Con esto, el prompt engineering es relevante para diseñar instrucciones específicas para dirigir el comportamiento del modelo. Tanto los enfoques manuales como los automatizados para el prompt engineering han tenido un éxito notable. Sin embargo, no vienen sin píldoras amargas, especialmente para aquellas tareas que requieren un control fuerte o muchos resultados específicos de la instancia.

Por ejemplo, tareas como el resumen o la generación de diálogos requieren que el modelo siga los comportamientos objetivo de forma sistemática, como la inclusión de detalles clave o la adhesión a un patrón de razonamiento estricto o a directrices estilísticas prescritas. Las técnicas convencionales a menudo no son suficientes para garantizar el cumplimiento constante de estos requisitos matizados.

Directional stimulus prompting (DSP) viene a llenar este vacío. DSP es un pequeño modelo de política auxiliar y genera instrucciones específicas de la instancia que guían al LLM hacia sus decisiones.

Las instrucciones emitidas sirven a un contexto específico para cada instancia y se considera que persuaden al LLM para que produzca outputs más alineados y deseables. Al conectar la DSP al proceso, los usuarios disponen de una potente herramienta para corregir el comportamiento de los LLM de caja negra y lograr una mayor coherencia, relevancia y precisión en el trabajo que necesita precisión1.

AI Academy

Conviértase en un experto en IA

Obtenga los conocimientos necesarios para priorizar las inversiones en IA que impulsan el crecimiento empresarial. Dé sus primeros pasos hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Cómo funciona DSP

Entrenamiento del modelo de políticas con fine-tuning supervisado (SFT)

El proceso de entrenamiento del modelo de políticas comienza con el fine-tuning supervisado (SFT) en un modelo previamente entrenado como T5, GPT-2 o cualquier otro LLM adecuado. La idea clave es afinar un modelo de política más pequeño sobre datos de entrenamiento que genere estímulos direccionales en lugar de modificar directamente el LLM.

Este proceso es eficiente porque el fine-tuning de un modelo de política más pequeño y específico de la tarea evita los desafíos y los costes computacionales asociados con el entrenamiento directo de modelos grandes y complejos.

Para entrenar este modelo de política, se crea un pequeño conjunto de datos etiquetados, donde cada entrada se empareja con un pseudoestímulo. Estos pseudoestímulos están diseñados para guiar las respuestas del LLM en la dirección deseada en función de la tarea en cuestión.

Por ejemplo, en una tarea de resumen, el pseudoestímulo podría consistir en palabras clave o frases extraídas de un resumen de referencia. Del mismo modo, para las tareas de generación de diálogos, los actos de diálogo, como solicitudes, preguntas o declaraciones, pueden utilizarse como pseudoestímulos.

Estos estímulos sirven como señales que el modelo de política utiliza para generar entradas específicas para cada tarea que dirigen eficazmente la salida del LLM hacia el comportamiento deseado.

El conjunto de datos etiquetados utilizado para SFT puede ser relativamente pequeño, ya que la atención se centra en proporcionar al modelo de lenguaje de políticas el conocimiento necesario para generar estímulos, no en entrenar un LLM masivo desde cero. Esto convierte a SFT en una forma eficiente en recursos para bootstrapping el modelo de políticas con conocimientos fundacionales sobre los requisitos específicos de la tarea4.

Refinamiento mediante aprendizaje por refuerzo (RL)

Tras el fine-tuning inicial con SFT, el modelo de políticas se optimiza mediante el aprendizaje por refuerzo (RL). RL permite que el modelo de políticas explore y perfeccione su capacidad para generar estímulos que conduzcan a resultados de LLM de mayor calidad. La idea central en esta fase es utilizar una función de recompensa para evaluar la eficacia de los estímulos generados.

Por ejemplo, en las tareas de resumen, la función de recompensa podría basarse en métricas como las puntuaciones ROUGE o BLEU, que miden la calidad del resumen generado en comparación con la referencia. 

Al centrarse en entrenar directamente el modelo de políticas en lugar del LLM, DSP supera los desafíos asociados con el fine-tuning de los modelos de caja negra, lo que conduce a un método más eficiente y escalable. 

Figura 1: Arquitectura del marco DSP 

 

Ventajas y deventajas de DSP

Directional stimulus prompting tiene ventajas notables y algunos desafíos, lo que lo convierte en una técnica intrigante pero intrincada. He aquí un examen más detallado de sus méritos y deméritos5.

Ventajas:

Mecanismo de atención dirigida: el mecanismo de atención dirigida en DSP enfatiza tokens o información relevantes, mejorando la precisión y la eficiencia al concentrar el procesamiento en componentes esenciales.

Uso optimizado de los recursos: al concentrarse en los estímulos pertinentes, las indicaciones de estímulos direccionales reducen los requisitos del conjunto de datos, lo que se traduce en tiempos de procesamiento más rápidos y menores costes computacionales.

Precisión mejorada: al aislar y enfatizar los tokens de entrada más relevantes, el directional stimulus prompting aumenta la precisión de las respuestas e interpretaciones del modelo de lenguaje.

Adaptabilidad: este enfoque se puede personalizar para diversas tareas lingüísticas, desde la generación de texto hasta el análisis de sentimientos, ofreciendo versatilidad en diferentes aplicaciones de procesamiento del lenguaje natural.

Desventajas:

Dependencia de señales precisas: el éxito de directional stimulus prompting depende en gran medida de estímulos precisos, lo que puede ser difícil de lograr en entornos complejos o ruidosos. Si el contexto o los estímulos sufren cambios significativos, la eficacia del método puede disminuir, lo que se traduce en una menor fiabilidad.

Complejidad de la configuración: la configuración de estímulos direccionales requiere un diseño y una calibración cuidadosos, lo que puede complicar el proceso de configuración inicial.

Generalización limitada: su capacidad para generalizar a través de diferentes tipos de señales o variaciones de entrada inesperadas es limitada, lo que restringe su aplicabilidad en contextos más amplios.

Casos de uso

Directive stimulus prompting (DSP) muestra un gran potencial en diversas tareas de PLN, guiando eficazmente los modelos para mejorar su rendimiento.

Resumen: DSP se utiliza para crear resúmenes deseados que se alinean más estrechamente con los resúmenes de referencia. En un resultado experimental, utilizando un pequeño conjunto de datos de solo 4000 muestras del conjunto de datos de CNN/Daily Mail, DSP mejoró los rendimientos de referencia como ROUGE y BLEU u otras medidas, incluidas las puntuaciones de preferencias humanas, entre un 4 % y un 13 %, superando algunos modelos totalmente supervisados6.

Generación de respuestas de diálogo: en la generación de diálogos orientados a tareas, DSP ayudó a ChatGPT a producir respuestas más precisas y relevantes. Por ejemplo, con solo 80 diálogos del conjunto de datos MultiWOZ, DSP logró un aumento de rendimiento del 41,4 %, superando a varios modelos de última generación (como ChatGPT, Codex e InstructGPT) entrenados en conjuntos de datos más grandes7.

Razonamiento en cadena de pensamiento: DSP también mejora el razonamiento en cadena de pensamiento generando instrucciones específicas de instancias que superaron a las instrucciones específicas de tareas diseñadas por humanos y generadas automáticamente, lo que mejora la precisión del razonamiento. Estos ejemplos ilustran cómo DSP puede ofrecer orientación específica, mejorando el rendimiento del modelo en una variedad de aplicaciones de PLN8.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IA de IBM.

Explore las soluciones de IA
Servicios y consultoría de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Gracias a la IA, IBM Concert descubre información crucial sobre sus operaciones y ofrece recomendaciones de mejora personalizadas para cada aplicación. Descubra cómo Concert puede hacer avanzar su negocio.

Explorar el concierto Explore las soluciones de automatización de procesos empresariales
Notas a pie de página

1 Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Xifeng Yan, Jianfeng Gao.(Microsoft, 22 de febrero de 2023). Guiding Large Language Models via Directional Simulus Prompting. arXiv:2302.11520.
https://github.com/Leezekun/Directional-Stimulus-Prompting. 

2 Sun, T., et.al, Black-box tuning for language-model as-a-service. En International Conference on Machine Learning (PP. 20841–20855. PMLR. 2022.

3 OpenAI. Informe técnico de Gpt-4, 2023.

4 Wanwei He, et al. Galaxy: A generative pre-trained model for task-oriented dialog with semi-supervised learning and explicit policy injection. En Actas de la Conferencia AAAI sobre Inteligencia Artificial. PP. 10749–10757. 2022.

5 Fei Liu (11 de octubre de 2024). A Systematic Survey on Large Language Models for Algorithm Design. arXiv: 2410.14716.

6 Goyal, T., Li, J. J., Y Durrett, G. News summarization and evaluation in the era of GPT-3. arXiv. Preimpresión de arXiv: 2209.12356. 2022.

7 Khattab, O., Santhanam, K., Li, X. L., Hall, D., Liang, P., Potts, C., y Zaharia, M. Demonstrate-search-predict: Composing retrieval and language models for knowledge-intensive nlp. arXiv. Preimpresión de arXiv: 2212.14024. 2022.

8 Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis, M., Zettlemoyer, L., y Yih, W.-t. Replug: Retrieval-augmented black-box language models. arXiv. Preimpresión de arXiv: 2301.12652. 2023.