¿Qué es one shot prompting?

Autor(es):

Vrunda Gadesha

AI Advocate | Technical Content Author

¿Qué es one shot prompting?

One-shot prompting se refiere al método en el que se proporciona a un modelo un solo ejemplo o instrucción para realizar una tarea. A diferencia de otras técnicas de ingeniería rápida, zero-shot prompting, en las que no se dan ejemplos, o few-shot prompting, en las que se proporcionan algunos ejemplos, one-shot prompting se basa en una única instrucción bien diseñada para lograr el resultado deseado. Este método aprovecha los modelos de lenguaje grandes (LLM) como los modelos GPT-3/GPT-4 (Generative Pre-trained Transformer) de OpenAI o los modelos IBM® Granite para comprender y generar texto similar al humano basado en una entrada mínima.

One-shot prompting es particularmente útil en escenarios en los que recopilar grandes cantidades de datos de entrenamiento no es práctico. Por ejemplo, en aplicaciones como chain-of-thought prompting, few-shot prompting y zero-shot prompting, donde hay datos limitados o no etiquetados disponibles, one-shot prompting ofrece una ventaja significativa al permitir que los modelos generalicen a partir de un solo ejemplo. En la figura 1 se ilustra la formación de one-shot prompting.

En el campo en rápida evolución de la inteligencia artificial (IA) y el procesamiento de lenguaje natural (PLN), específicamente en la IA generativa, la ingeniería rápida se ha convertido en una técnica fundamental. Entre los diversos tipos de instrucciones, one-shot prompting destaca por su eficiencia y eficacia. Este artículo explora el concepto de one-shot prompting, sus mecanismos, aplicaciones, ventajas, limitaciones y perspectivas futuras.

El prompting es una técnica utilizada en la IA para guiar modelos de lenguaje en la generación de resultados deseados. Existen diferentes tipos de prompting, como zero-shot, few-shot y one-shot. Cada tipo varía en términos de la cantidad de datos y ejemplos proporcionados al modelo para realizar una tarea específica. La ingeniería rápida implica elaborar estas instrucciones para optimizar el rendimiento.

Mecanismos detrás de one-shot prompting

One-shot prompting aprovecha las capacidades de los modelos de lenguaje grandes (LLM) avanzados para generar respuestas coherentes y contextualmente apropiadas a partir de una única instrucción de ejemplo. Esta eficiencia es posible gracias a varios mecanismos subyacentes, como knowledge prompting, visual in-context prompting y la proyección de características adaptativas. Si bien algunos de estos mecanismos, como knowledge prompting y la proyección de características adaptativas, son generalizados y se pueden aplicar a varios tipos de datos, como texto, imagen y video, otros, como las instrucciones visuales en contexto, están diseñados específicamente para manejar imágenes o datos de video.

Visual in-context prompting permite que el modelo interprete y responda en función de señales visuales, lo cual es crucial para tareas como el reconocimiento de imágenes o el análisis de videos. Por el contrario, knowledge prompting y la proyección de características adaptativas mejoran la capacidad del modelo para comprender y generar respuestas en diferentes tipos de entrada, lo que los hace versátiles en múltiples dominios.

Por ejemplo, debe resumir un documento en francés al inglés y formatear el resultado para una API específica. Con instrucciones únicas, puede proporcionar una única instrucción de ejemplo como: "Resumir este texto en francés a inglés mediante la plantilla de API {Title}, {Key Points}, {Summary}". El LLM utiliza sus capacidades multilingües y su proyección de características adaptativas para producir el formato de salida deseado. En Python, este proceso se puede automatizar integrando la respuesta del modelo de IA generativa en el flujo de trabajo de la API.

Knowledge prompting

Este método implica aprovechar bases de conocimiento externas o corpus preexistentes específicos de dominio para mejorar la comprensión contextual del modelo y las capacidades de toma de decisiones. Al integrar gráficos de conocimiento estructurados o propuestas de texto enriquecidas con información relacionada con la acción o específica de la tarea, el modelo puede recuperar de manera efectiva información relevante que respalde inferencias más precisas. Por ejemplo, la incorporación de corpus relacionados con la acción, como secuencias de tareas o eventos relevantes para el dominio, permite que el modelo se generalice mejor a nuevas tareas en escenarios de aprendizaje únicos. Este enfoque permite que el modelo cierre las brechas de conocimiento utilizando repositorios de información predefinidos, mejorando su capacidad para adaptarse y generar respuestas más adecuadas al contexto.[1] Esta técnica es particularmente poderosa cuando se combina con LLM a gran escala, ya que mitiga la necesidad de grandes cantidades de datos de entrenamiento específicos de la tarea sin dejar de proporcionar resultados sólidos.

Visual in-context prompting

Esta técnica aprovecha las señales visuales, como las máscaras de segmentación, los cuadros delimitadores o los puntos clave, para guiar a los modelos en la comprensión y el procesamiento de datos de imágenes o videos de manera más eficaz. En visual in-context prompting, el modelo recibe una imagen de referencia o un conjunto de segmentos de imagen que resaltan regiones específicas de interés, lo que le permite centrarse en características visuales clave durante la inferencia. Mediante el uso de estas instrucciones visuales, el modelo puede comprender mejor las relaciones espaciales, los límites de los objetos y los elementos contextuales dentro de la imagen, mejorando significativamente su rendimiento en las tareas de visión. Se ha demostrado que este enfoque mejora las capacidades de aprendizaje tanto zero-shot como one-shot al permitir que el modelo generalice a partir de ejemplos mínimos en diversas aplicaciones basadas en la visión, como la detección de objetos, la clasificación de imágenes y la segmentación.[2] Además, la técnica permite al modelo refinar sus predicciones adaptándose dinámicamente a nuevos contextos visuales con datos mínimos, lo que lo hace muy eficaz en escenarios con ejemplos de entrenamiento etiquetados limitados.

Proyección de características adaptativas

En el reconocimiento de acciones one-shot, la proyección de características adaptativas aborda las variaciones temporales en los datos de video al alinear y refinar las características extraídas a lo largo del tiempo. Este método implica el entrenamiento previo y el ajuste de la red base para aprender un conjunto general de características y luego aplicar técnicas de adaptación de características que permiten que el modelo ajuste dinámicamente sus representaciones de características internas en función de la progresión temporal del video. Al proyectar las características de entrada en un espacio que captura patrones tanto espaciales como temporales, el modelo puede manejar mejor la variabilidad en las secuencias de acción, proporcionando ejemplos como cambios en la velocidad de movimiento o la interacción de objetos. Este enfoque mejora significativamente la capacidad del modelo para reconocer acciones de un solo video de entrenamiento, mejorando su generalización y precisión en el reconocimiento de acciones complejas en secuencias de video nuevas e invisibles.[3] La proyección de características adaptativas es particularmente útil para manejar la dinámica temporal detallada de las tareas basadas en video, lo que la convierte en un componente crítico para el reconocimiento de acciones one-shot de alto rendimiento.

Attention zooming

Esta estrategia mejora el aprendizaje one-shot con un enfoque paso a paso en la atención del modelo en las regiones más relevantes de la entrada. En las tareas de detección de acciones, attention zooming se emplea a través de mecanismos como la atención cruzada entre los conjuntos de soporte y consulta. Este enfoque permite que el modelo compare y alinee las características de un video de soporte (que contiene el ejemplo de acción) con un video de consulta (donde se debe detectar la acción). Al centrarse en regiones temporales o espaciales específicas que tienen más probabilidades de contener la acción relevante, el modelo genera propuestas de acción de alta calidad. Este mecanismo de atención cruzada permite al modelo "acercar" de manera efectiva partes clave de la entrada, reduciendo el ruido y la información irrelevante, mejorando así su rendimiento en escenarios de aprendizaje one-shot.[4] La técnica ayuda a reducir los espacios de entrada complejos, lo que permite un procesamiento más eficiente del conjunto de consultas y, al mismo tiempo, mantiene la precisión incluso con ejemplos de entrenamiento mínimos.

Estos mecanismos ilustran la adaptabilidad y solidez de one-shot prompting en diferentes dominios con ejemplos específicos. Al aprovechar las técnicas avanzadas de ingeniería de instrucciones e integrar conocimientos externos y señales visuales, one-shot prompting puede lograr una alta precisión y eficiencia con una entrada de datos mínima.

Ventajas y limitaciones de one-shot prompting

One-shot prompting ofrece beneficios significativos y algunos desafíos, lo que lo convierte en una técnica convincente, pero compleja en el campo de la IA y el machine learning. A continuación, presentamos un análisis en profundidad de sus beneficios y limitaciones:

Ventajas

  • Eficiencia. Datos de entrenamiento reducidos: one-shot prompting requiere significativamente menos datos de entrenamiento en comparación con los modelos tradicionales de machine learning. Esta eficiencia reduce los recursos computacionales y el tiempo necesarios para el entrenamiento. Por ejemplo, en aplicaciones como el reconocimiento de acción one-shot, los modelos pueden lograr una alta precisión con un mínimo de datos de entrada.[3]
  • Velocidad. Despliegue más rápido: one-shot prompting permite un despliegue rápido de modelos de IA. Esto es particularmente beneficioso en entornos dinámicos donde la rápida adaptación a nuevas tareas es crucial. La capacidad de generar respuestas de alta calidad a partir de un solo ejemplo acelera el proceso de despliegue.[5]
  • Flexibilidad. Adaptabilidad a diversas aplicaciones: one-shot prompting es altamente adaptable a una variedad de aplicaciones, desde chatbots de atención al cliente hasta recomendaciones personalizadas. Esta flexibilidad lo hace adecuado para diversos casos de uso, incluido el escenario de aprendizaje few-shot y zero-shot.[1]

Limitaciones

  • Potencial de sesgo. Sesgo heredado de datos preentrenados: uno de los desafíos importantes de one-shot prompting es el potencial de sesgo. Dado que los modelos dependen en gran medida de datos previamente entrenados, pueden heredar y perpetuar sesgos presentes en los conjuntos de datos de entrenamiento. Esto puede afectar la imparcialidad y precisión de los resultados del modelo.[6]
  • Precisión. Variabilidad en el rendimiento: si bien one-shot prompting puede ser muy efectivo, es posible que no siempre logre el mismo nivel de precisión que los métodos que emplean datos de entrenamiento extensos. Las tareas complejas que requieren una comprensión detallada y el contexto puede plantear desafíos para one-shot prompting, lo que lleva a la variabilidad en el rendimiento.[7]

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de la industria, herramientas de IA y tendencias emergentes en ingeniería rápida con el boletín Think. Además, obtenga acceso a nuevos documentos explicativos, tutoriales e insights de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Casos de uso

One-shot prompting es una técnica poderosa que encuentra una serie de ejemplos y aplicaciones en una amplia gama de industrias y escenarios. Al aprovechar las capacidades de los modelos de lenguaje grandes (LLM) avanzados y los sofisticados métodos de prompting, one-shot prompting puede mejorar significativamente la eficiencia y el rendimiento en diversas tareas. Estos son algunos casos de uso notables:

1. Atención al cliente y chatbots

One-shot prompting puede mejorar enormemente el rendimiento de los chatbots y asistentes virtuales en entornos de atención al cliente. Al proporcionar un ejemplo único y bien elaborado, los chatbots pueden entrenarse para manejar consultas complejas, ofrecer respuestas personalizadas y mejorar la satisfacción general del cliente. Este método reduce la necesidad de extensos datos de entrenamiento, lo que permite un rápido despliegue y adaptación a diferentes escenarios de atención al cliente.[6]

2. Creación y automatización de contenidos

En el campo de la creación y automatización de contenidos, one-shot prompting se puede utilizar para generar artículos, informes y contenido creativo de alta calidad con una entrada mínima. Esto es particularmente útil para los especialistas en marketing, escritores y creadores de contenido que necesitan producir grandes volúmenes de contenido de manera eficiente. Al proporcionar una única instrucción, los modelos pueden generar contenido diverso y contextualmente relevante, ahorrando tiempo y recursos.[1]

3. Recomendaciones personalizadas

One-shot prompting mejora los sistemas de recomendación al generar sugerencias personalizadas basadas en entradas limitadas. Por ejemplo, las plataformas de comercio electrónico pueden utilizar one-shot prompting para proporcionar recomendaciones de productos personalizadas, mejorando la experiencia de compra e impulsando las ventas. Este método aprovecha datos mínimos para producir recomendaciones altamente precisas y relevantes.[7]

4. Reconocimiento de acciones en videos

En el análisis de video, one-shot prompting se puede utilizar para tareas de reconocimiento de acciones, como identificar acciones específicas en imágenes de vigilancia o analytics deportivos. Al proporcionar un solo video de ejemplo, los modelos pueden aprender a reconocer acciones similares en videos nuevos, incluso en condiciones variables. Esto es particularmente valioso en aplicaciones como seguridad, análisis de rendimiento deportivo y edición automatizada de video.[3]

Por lo tanto, one-shot prompting es un avance significativo en la IA, ya que ofrece soluciones eficientes y flexibles en varios dominios. A medida que la investigación sigue abordando sus limitaciones, las posibles aplicaciones y beneficios de esta técnica se expandirán, contribuyendo a la evolución de los sistemas inteligentes.

AI Academy

Conviértase en un experto en IA

Obtenga el conocimiento para priorizar las inversiones en IA que impulsan el crecimiento del negocio. Comience hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Soluciones relacionadas
IBM® watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Con la IA, IBM Concert muestra insights cruciales sobre operaciones y proporciona recomendaciones de mejora específicas de las aplicaciones. Descubra cómo Concert puede hacer avanzar su negocio.

Explore Concert Explore las soluciones de automatización de procesos de negocio