¿Qué es one-shot prompting?

Autor(es):

Vrunda Gadesha

AI Advocate | Technical Content Author

¿Qué es el one-shot prompting?

El One-shot prompting se refiere al método en el que se proporciona a un modelo una única instrucción para realizar una tarea. A diferencia de otras técnicas de prompt engineering, el zero-shot prompting, en el que no se dan ejemplos, o el few-shot prompting, en el que se proporcionan algunos ejemplos, el one-shot prompting se basa en una única instrucción bien elaborada para lograr el resultado deseado. Este método aprovecha modelos de lenguaje de gran tamaño (LLM) como los modelos GPT-3/GPT-4 (Generative Pre-trained Transformer) de OpenAI o los modelos IBM Granite para comprender y generar texto similar al humano basado en una entrada mínima.

One-shot prompting es especialmente útil en escenarios en los que no es práctico recopilar grandes cantidades de datos de entrenamiento. Por ejemplo, en aplicaciones como el prompting de cadena de pensamiento, el few-shot prompting y el zero-shot prompting, donde los datos disponibles son limitados o no están etiquetados, el one-shot prompting ofrece una ventaja significativa al permitir que los modelos generalicen a partir de un único ejemplo. En la Figura 1 se ilustra la formación de one-shot prompting.

En el campo de la inteligencia artificial (IA) y el procesamiento del lenguaje natural (PLN), en rápida evolución, el prompt engineering de IA generativa se ha convertido en una técnica fundamental. Entre los diversos tipos de prompting, one-shot prompting destaca por su eficiencia y eficacia. Este artículo explora el concepto de one-shot prompting, sus mecanismos, aplicaciones, ventajas, limitaciones y cliente potencial.

El prompting es una técnica utilizada en la IA para guiar a los modelos de lenguaje en la generación de los resultados deseados. Existen diferentes tipos de prompting, incluidos los zero-shot, few-shot y one-shot prompting. Cada tipo varía en términos de la cantidad de datos y ejemplos proporcionados al modelo para realizar una tarea específica. El prompt engineering implica la elaboración de estas instrucciones para optimizar el rendimiento del modelo.

Mecanismos detrás del one-shot prompting

El one-shot prompting aprovecha las capacidades de los modelos avanzados de lenguaje de gran tamaño (LLM) para generar respuestas coherentes y contextualmente apropiadas a partir de una única instrucción de ejemplo. Esta eficiencia es posible gracias a varios mecanismos subyacentes, como las indicaciones de conocimiento, las indicaciones visuales en contexto y la proyección de características adaptativas. Aunque algunos de estos mecanismos, como el prompting de conocimiento y la proyección de características adaptativas, son generalizados y pueden aplicarse a varios tipos de datos como texto, imagen y vídeo, otros, como las indicaciones visuales en contexto, están diseñados específicamente para manejar imágenes o datos de vídeo.

El prompting visual en contexto permiten que el modelo interprete y responda basándose en señales visuales, lo cual es crucial para tareas como el reconocimiento de imágenes o el análisis de vídeo. Por el contrario, el prompting de conocimiento y la proyección de características adaptativas mejoran la capacidad del modelo para comprender y generar respuestas en diferentes tipos de entrada, lo que los hace versátiles en múltiples dominios.

Por ejemplo, necesita resumir un documento francés al inglés y formatear el resultado para una API específica. Con one-shot prompting, puede proporcionar un prompt como: "Resumir este texto en francés al inglés utilizando la plantilla de API {Title}, {Key Points}, {Summary}". El LLM utiliza sus capacidades multilingües y proyección de características adaptativa para producir el formato de output deseado. En Python, este proceso puede automatizarse integrando la respuesta del modelo de IA generativa en el flujo de trabajo de la API.

Prompting de conocimiento

Este método implica aprovechar bases de conocimiento externas o corpus preexistentes específicos de dominio para mejorar la comprensión contextual del modelo y las capacidades de toma de decisiones. Al integrar gráficos de conocimiento estructurados o propuestas de texto enriquecidas con información relacionada con la acción o específica de la tarea, el modelo puede recuperar eficazmente información relevante que respalde inferencias más precisas. Por ejemplo, la incorporación de corpus relacionados con acciones, como secuencias de tareas o eventos relevantes para el dominio, permite al modelo generalizar mejor a nuevas tareas en escenarios de aprendizaje único. Este enfoque permite al modelo llenar las lagunas de conocimiento utilizando repositorios de información predefinidos, mejorando su capacidad de adaptación y generando respuestas más adecuadas al contexto[1]. Esta técnica es particularmente poderosa cuando se combina con LLM a gran escala, ya que mitiga la necesidad de grandes cantidades de datos de entrenamiento específicos de la tarea y, al mismo tiempo, proporciona resultados sólidos.

Prompting visual en contexto

Esta técnica aprovecha las señales visuales, como las máscaras de segmentación, los cuadros delimitadores o los puntos clave, para guiar a los modelos en la comprensión y el procesamiento de datos de imágenes o vídeos de forma más eficaz. En el prompting visual en contexto, el modelo recibe una imagen de referencia o un conjunto de segmentos de imagen que resaltan regiones específicas de interés, lo que le permite centrarse en características visuales clave durante la inferencia. Mediante el uso de estas instrucciones visuales, el modelo puede comprender mejor las relaciones espaciales, los límites de los objetos y los elementos contextuales dentro de la imagen, lo que mejora significativamente su rendimiento en las tareas de visión. Se ha demostrado que este enfoque mejora las capacidades de aprendizaje tanto zero-shot como one-shot al permitir que el modelo generalice a partir de ejemplos mínimos en diversas aplicaciones basadas en la visión, como la detección de objetos, la clasificación de imágenes y la segmentación[2]. Además, la técnica permite al modelo refinar sus predicciones adaptándose dinámicamente a nuevos contextos visuales con un mínimo de datos, lo que lo hace muy eficaz en escenarios con ejemplos de entrenamiento etiquetados limitados.

Proyección de características adaptativa

En el reconocimiento de acciones one-shot, la proyección de características adaptativa aborda el desafío de las variaciones temporales en los datos de vídeo alineando y refinando las características extraídas a lo largo del tiempo. Este método implica el entrenamiento previo y el fine-tuning de la red base para aprender un conjunto general de características y, a continuación, aplicar técnicas de adaptación de características que permitan al modelo ajustar dinámicamente sus representaciones de características internas en función de la progresión temporal del vídeo. Al proyectar las características de entrada en un espacio que captura patrones tanto espaciales como temporales, el modelo puede manejar mejor la variabilidad en las secuencias de acción, proporcionando ejemplos como cambios en la velocidad de movimiento o la interacción de objetos. Este enfoque mejora significativamente la capacidad del modelo para reconocer acciones a partir de un único vídeo de entrenamiento, mejorando su generalización y precisión a la hora de reconocer acciones complejas en secuencias de vídeo nuevas e invisibles[3]. La proyección de características adaptativa es especialmente útil para manejar la dinámica temporal detallada de las tareas basadas en vídeo, lo que la convierte en un componente crítico para el reconocimiento de acciones one-shot de alto rendimiento.

Zoom de atención

Esta estrategia mejora el aprendizaje one-shot con un enfoque paso a paso en la atención del modelo en las regiones más relevantes de la entrada. En las tareas de detección de acciones, el zoom de atención se emplea a través de mecanismos como la atención cruzada entre los conjuntos de soporte y consulta. Este enfoque permite que el modelo compare y alinee las características de un vídeo de soporte (que contiene el ejemplo de acción) con un vídeo de consulta (donde es necesario detectar la acción). Al centrarse en regiones temporales o espaciales específicas que tienen más probabilidades de contener la acción relevante, el modelo genera propuestas de acción de alta calidad. Este mecanismo de atención cruzada permite al modelo "ampliar" eficazmente las partes clave de la entrada, reduciendo el ruido y la información irrelevante, lo que mejora su rendimiento en escenarios de aprendizaje de un solo paso[4]. La técnica ayuda a reducir los espacios de entrada complejos, lo que permite un procesamiento más eficiente del conjunto de consultas y, al mismo tiempo, mantiene la precisión incluso con ejemplos de entrenamiento mínimos.

Estos mecanismos ilustran la adaptabilidad y la solidez de one-shot prompting en diferentes dominios con ejemplos específicos. Al aprovechar las técnicas de prompting y la integración de conocimientos externos y señales visuales, one-shot prompting puede lograr una alta precisión y eficiencia con una entrada mínima.

Ventajas y limitaciones del one-shot prompting

El one-shot prompting ofrece beneficios significativos y algunos desafíos, lo que lo convierte en una técnica convincente pero compleja en el campo de la IA y el machine learning. Eche un vistazo en profundidad a sus ventajas y limitaciones:

Ventajas

  • Eficiencia: datos de entrenamiento reducidos: el one-shot prompting requiere significativamente menos datos de entrenamiento en comparación con los modelos tradicionales de machine learning. Esta eficiencia reduce los recursos computacionales y el tiempo necesarios para el entrenamiento. Por ejemplo, en aplicaciones como el reconocimiento de acciones únicas, los modelos pueden lograr una alta precisión con un mínimo de datos de entrada[3].
  • Velocidad: implementación más rápida: el one-shot prompting permite una implementación rápida de los modelos de IA. Esto es especialmente beneficioso en entornos dinámicos en los que la rápida adaptación a nuevas tareas es crucial. La capacidad de generar respuestas de alta calidad a partir de un único ejemplo acelera el proceso de implementación[5].
  • Flexibilidad: adaptabilidad a varias aplicaciones: el one-shot prompting se adapta a una gran variedad de aplicaciones, desde chatbots de servicio de atención al cliente hasta recomendaciones personalizadas. Esta flexibilidad lo hace adecuado para diversos casos de uso, incluido el escenario de aprendizaje few-shot y zero-shot[1].

Limitaciones

  • Potencial de sesgo: sesgo heredado de los datos preentrenados: uno de los principales desafíos de one-shot prompting es el potencial de sesgo. Dado que los modelos se basan en gran medida en datos preentrenados, pueden heredar y perpetuar sesgos presentes en los conjuntos de datos de entrenamiento. Esto puede afectar a la imparcialidad y precisión de los resultados del modelo[6].
  • Precisión: variabilidad en el rendimiento: aunque el one-shot prompting puede ser muy eficaz, es posible que no siempre alcance el mismo nivel de precisión que los métodos que utilizan muchos datos de entrenamiento. Las tareas complejas que requieren una comprensión detallada y el contexto pueden plantear desafíos para los modelos de one-shot prompting, lo que lleva a la variabilidad en el rendimiento[7].

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de los sectores, herramientas de IA y tendencias emergentes en prompt engineering con el boletín Think. Además, acceda a nuevos artículos explicativos, tutoriales y conocimientos de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Casos de uso

El one-shot prompting es una técnica potente que encuentra varios ejemplos y aplicaciones en una amplia gama de sectores y escenarios. Al aprovechar las capacidades de los modelos avanzados de lenguaje de gran tamaño (LLM) y los métodos sofisticados de one-shot prompting, puede mejorar significativamente la eficiencia y el rendimiento en diversas tareas. Estos son algunos casos de uso notables:

1. Servicio de atención al cliente y chatbots

El one-shot prompting puede mejorar en gran medida el rendimiento de los chatbots y los asistentes virtuales en los entornos de servicio de atención al cliente. Al proporcionar un ejemplo único y bien elaborado, los chatbots pueden entrenarse para gestionar consultas complejas, ofrecer respuestas personalizadas y mejorar la satisfacción general del cliente. Este método reduce la necesidad de extensos datos de entrenamiento, lo que permite una rápida implementación y adaptación a diferentes escenarios de servicio de atención al cliente[6].

2. Creación y automatización de contenidos

En el campo de la creación de contenidos y la automatización, one-shot prompting se puede utilizar para generar artículos, informes y contenidos creativos de alta calidad con una entrada mínima. Esto les resulta especialmente útil a los vendedores, escritores y creadores de contenido que necesitan producir grandes volúmenes de contenido de manera eficiente. Al proporcionar una única instrucción, los modelos pueden generar contenido diverso y contextualmente relevante, ahorrando tiempo y recursos[1].

3. Recomendaciones personalizadas

El one-shot prompting mejora los sistemas de recomendación al generar sugerencias personalizadas basadas en entradas limitadas. Por ejemplo, las plataformas de comercio electrónico pueden utilizar one-shot prompting para ofrecer recomendaciones personalizadas de productos, mejorando la experiencia de compra e impulsando las ventas. Este método aprovecha datos mínimos para producir recomendaciones altamente precisas y relevantes[7].

4. Reconocimiento de acciones en vídeos

En el análisis de vídeo, el one-shot prompting se puede utilizar para tareas de reconocimiento de acciones, como identificar acciones específicas en imágenes de vigilancia o análisis deportivos. Al proporcionar un único vídeo de ejemplo, los modelos pueden aprender a reconocer acciones similares en nuevos vídeos, incluso en condiciones variables. Esto es especialmente valioso en aplicaciones como la seguridad, el análisis del rendimiento deportivo y la edición automatizada de vídeo[3].

Por lo tanto, el one-shot prompting es un avance significativo en la IA, que ofrece soluciones eficientes y flexibles en varios dominios. A medida que la investigación continúa abordando sus limitaciones, las posibles aplicaciones y ventajas de esta técnica están llamadas a expandirse, contribuyendo a la evolución de los sistemas inteligentes.

AI Academy

Conviértase en un experto en IA

Obtenga los conocimientos necesarios para priorizar las inversiones en IA que impulsan el crecimiento empresarial. Dé sus primeros pasos hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IA de IBM.

Explore las soluciones de IA
Servicios y consultoría de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Gracias a la IA, IBM Concert descubre información crucial sobre sus operaciones y ofrece recomendaciones de mejora personalizadas para cada aplicación. Descubra cómo Concert puede hacer avanzar su negocio.

Explorar el concierto Explore las soluciones de automatización de procesos empresariales