¿Qué es directional stimulus prompting (DSP)?

Autor

Shalini Harkar

Lead AI Advocate

¿Qué es directional stimulus prompting (DSP)?

Directional stimulus prompting (DSP) es una nueva metodología de instrucción en el procesamiento de lenguaje natural (PLN) en la que se presenta un modelo con un estímulo directivo o estructurado para generar resultados deseados.

A diferencia de las instrucciones estándar, como las instrucciones one-shot, zero-shot o few-shot, este enfoque se distingue por dar control directo sobre la salida del modelo estableciendo criterios o proporcionando instrucciones. En este enfoque, un estímulo guía actúa como un mecanismo de control del proceso generativo del modelo a lo largo de líneas definidas por un determinado criterio.

Directional stimulus prompting (DSP) es útil cuando una tarea requiere un conjunto específico de respuestas, muy sensibles al contexto, pero aún sin datos etiquetados.

Por ejemplo, en el caso de las tareas de resumen, donde retener información esencial es crucial, DSP proporciona un estímulo guía que incentiva al modelo a producir de una manera específica. Esto lleva a la generación general de resúmenes más precisos y contextualmente apropiados.1

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de la industria, herramientas de IA y tendencias emergentes en ingeniería rápida con el boletín Think. Además, obtenga acceso a nuevos documentos explicativos, tutoriales e insights de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Necesidad de directional stimulus prompting
.

Los modelos de lenguaje grandes (LLM), como GPT-3, 4 y PaLM, se conocen comúnmente como modelos de "caja negra" porque los usuarios no tienen acceso a sus componentes internos, como parámetros, métodos de ajuste o procesos de toma de decisiones.

Dicha interacción se realiza esencialmente a través de instrucciones de texto que utilizan llamadas de interfaz de programación de aplicaciones (API) como los principales mecanismos de entrada y salida. Si bien estos modelos son bastante excelentes, su capacidad para producir resultados precisos específicos de tareas a menudo depende en gran medida de la calidad de las instrucciones.2, 3

Con esto, la ingeniería rápida para diseñar instrucciones específicas para dirigir el comportamiento del modelo es relevante. Tanto los enfoques manuales como los automatizados para la ingeniería rápida han tenido un éxito notable. Sin embargo, no vienen sin dificultades, especialmente para aquellas tareas que requieren un control fuerte o muchos resultados específicos de la instancia.

Por ejemplo, las tareas como el resumen o la generación de diálogos requieren que el modelo siga los comportamientos objetivo de manera sistemática, como incluir detalles clave o adherirse a un patrón de razonamiento estricto o pautas estilísticas prescritas. Las técnicas convencionales a menudo no son suficientes para garantizar el cumplimiento constante de estos requisitos matizados.

Directional stimulus prompting (DSP) viene a llenar este vacío. DSP es un pequeño modelo de política auxiliar y genera instrucciones de estímulo direccional específicas de la instancia que guían al LLM hacia sus decisiones.

Las instrucciones emitidas sirven a un contexto específico para cada instancia y se considera que persuaden al LLM para que produzca resultados más alineados y deseables. Al conectar DSP al proceso, los usuarios tienen una poderosa herramienta para corregir el comportamiento de los LLM de caja negra para lograr una mayor coherencia, relevancia y exactitud en el trabajo que necesita precisión.1

AI Academy

Conviértase en un experto en IA

Obtenga el conocimiento para priorizar las inversiones en IA que impulsan el crecimiento del negocio. Comience hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Cómo funciona DSP

Entrenamiento del modelo de políticas con ajuste supervisado (SFT)

El proceso de entrenamiento del modelo de políticas comienza con el ajuste supervisado (SFT) en un modelo previamente entrenado, como T5, GPT-2 o cualquier otro LLM adecuado. La idea clave es ajustar un modelo de política más pequeño sobre datos de entrenamiento que genere estímulos direccionales en lugar de modificar directamente el LLM.

Este proceso es eficiente porque el ajuste de un modelo de políticas más pequeño y específico de la tarea evita los desafíos y los costos computacionales asociados con el entrenamiento directo de modelos grandes y complejos.

Para entrenar este modelo de política, se crea un pequeño conjunto de datos etiquetado, donde cada entrada se empareja con un pseudoestímulo. Estos pseudoestímulos están diseñados para guiar las respuestas del LLM en la dirección deseada en función de la tarea en cuestión.

Por ejemplo, en una tarea de resumen, el pseudoestímulo podría consistir en palabras clave o frases extraídas de un resumen de referencia. Del mismo modo, para las tareas de generación de diálogo, los actos de diálogo, como solicitudes, preguntas o declaraciones, pueden utilizarse como pseudoestímulos.

Estos estímulos sirven como señales que el modelo de políticas utiliza para generar entradas específicas de tareas que dirigen eficazmente la salida del LLM hacia el comportamiento objetivo.

El conjunto de datos etiquetados utilizado para SFT puede ser relativamente pequeño, ya que el objetivo es proporcionar al modelo de lenguaje de políticas el conocimiento necesario para generar estímulos, no entrenar un LLM masivo desde cero. Esto convierte a SFT en una forma eficiente en recursos para hacer bootstrapping del modelo de políticas con conocimientos fundacionales sobre los requisitos específicos de la tarea.4

Refinamiento mediante aprendizaje por refuerzo (RL)

Después del ajuste inicial con SFT, el modelo de políticas se optimiza mediante el aprendizaje por refuerzo (RL). El RL permite que el modelo de políticas explore y perfeccione su capacidad para generar estímulos que conduzcan a resultados de LLM de mayor calidad. La idea central en esta fase es utilizar una función de recompensa para evaluar la eficacia de los estímulos generados.

Por ejemplo, en las tareas de resumen, la función de recompensa podría basarse en métricas como las puntuaciones ROUGE o BLEU, que miden la calidad del resumen generado en comparación con la referencia. 

Al centrarse en entrenar directamente el modelo de políticas en lugar del LLM, DSP supera los desafíos asociados con el ajuste de los modelos de caja negra, lo que lleva a un método más eficiente y escalable. 

Arquitectura de DSP

Figura 1: Arquitectura del marco DSP 

 

Pros y contras de DSP

DSP tiene ventajas notables y algunos desafíos, lo que lo convierte en una técnica intrigante, pero intrincada. Aquí hay un análisis más detallado de sus ventajas y desventajas.5

Pros:

Mecanismo de atención dirigida: el mecanismo de atención dirigida en DSP enfatiza tokens o información relevante, mejorando la precisión y la eficiencia al concentrar el procesamiento en componentes esenciales.

Uso optimizado de recursos: al concentrarse en los estímulos pertinentes, DSP reduce los requisitos del conjunto de datos, lo que da como resultado tiempos de procesamiento más rápidos y menores costos computacionales.

Precisión mejorada: al aislar y enfatizar los tokens de entrada más relevantes, DSP aumenta la precisión de las respuestas e interpretaciones del modelo de lenguaje.

Adaptabilidad: este enfoque se puede personalizar para diversas tareas de lenguaje, que van desde la generación de texto hasta el análisis de sentimientos, ofreciendo versatilidad en diferentes aplicaciones de procesamiento de lenguaje natural.

Contras:

Dependencia de señales precisas: el éxito de DSP depende en gran medida de estímulos precisos, lo que puede ser difícil de lograr en entornos complejos o ruidosos. Si el contexto o los estímulos experimentan cambios significativos, la eficacia del método podría disminuir, lo que resultaría en una menor confiabilidad.

Complejidad de la configuración: la configuración de estímulos direccionales requiere un diseño y una calibración cuidadosos, lo que puede complicar el proceso de configuración inicial.

Generalización limitada: su capacidad para generalizar a través de diferentes tipos de señales o variaciones de entrada inesperadas es limitada, lo que restringe su aplicabilidad en contextos más amplios.

Casos de uso

DSP muestra un gran potencial en diversas tareas de PLN, guiando eficazmente los modelos para mejorar su rendimiento.

Resumen: DSP se utiliza para crear resúmenes deseados que se alinean más estrechamente con los resúmenes de referencia. En un resultado experimental, utilizando un pequeño conjunto de datos de solo 4000 muestras del conjunto de datos de CNN/Daily Mail, DSP mejoró los rendimientos de punto de referencia, como ROUGE y BLEU u otras medidas, incluidas las puntuaciones de preferencias humanas, entre un 4 % y un 13 %, superando algunos modelos totalmente supervisados.6

Generación de respuestas de diálogo: en la generación de diálogos orientados a tareas, DSP ayudó a ChatGPT a producir respuestas más precisas y relevantes. Por ejemplo, con solo 80 diálogos del conjunto de datos MultiWOZ, DSP logró un aumento del rendimiento del 41.4 %, superando a varios modelos de última generación (como ChatGPT, Codex e InstructGPT) entrenados en conjuntos de datos más grandes.7

Razonamiento de cadena de pensamiento: DSP también mejora el razonamiento de cadena de pensamiento al generar instrucciones específicas de instancias que superaron las instrucciones específicas de tareas diseñadas por humanos y generadas automáticamente, lo que lleva a una mayor precisión del razonamiento. Estos ejemplos ilustran cómo DSP puede ofrecer orientación específica, mejorando el rendimiento del modelo en una variedad de aplicaciones de PLN.8

Soluciones relacionadas
IBM® watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Con la IA, IBM Concert muestra insights cruciales sobre operaciones y proporciona recomendaciones de mejora específicas de las aplicaciones. Descubra cómo Concert puede hacer avanzar su negocio.

Explore Concert Explore las soluciones de automatización de procesos de negocio
Notas de pie de página

1 Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Xifeng Yan, jianfeng gao (Microsoft, 22 de febrero de 2023), Guiding Large Language Models via Directional Simulus Prompting, arXiv:2302.11520.
https://github.com/Leezekun/Directional-Stimulus-Prompting. 

2 Sun, T., et.al, Black-box tuning for language-model as-a-service. In International Conference on Machine Learning, pp. 20841–20855. PMLR, 2022.

3 OpenAI. Gpt-4 technical report, 2023.

4 Wanwei He, et al., Galaxy: A generative pre-trained model for task-oriented dialog with semi-supervised learning and explicit policy injection. In Proceedings of the AAAI Conference on Artificial Intelligence, pp. 10749–10757, 2022.

5 Fei Liu (11 de octubre de 2024), A Systematic Survey on Large Language Models for Algorithm Design. arXiv: 2410.14716.

6 Goyal, T., Li, J. J., and Durrett, G. News summarization and evaluation in the era of GPT-3. arXiv preprint arXiv: 2209.12356, 2022.

7 Khattab, O., Santhanam, K., Li, X. L., Hall, D., Liang, P., Potts, C., and Zaharia, M. Demonstrate-search-predict: Composing retrieval and language models for knowledge-intensive nlp. arXiv preprint arXiv: 2212.14024, 2022.

8 Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis, M., Zettlemoyer, L., and Yih, W.-t. Replug: Retrieval-augmented black-box language models. arXiv preprint arXiv: 2301.12652, 2023.