RAG vs. fine-tuning vs. prompt engineering

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

RAG vs. fine-tuning vs. prompt engineering

El prompt engineering, el fine-tuning y la generación aumentada por recuperación (RAG) son tres métodos de optimización que las empresas pueden utilizar para obtener más valor de los modelos de lenguaje de gran tamaño (LLM). Los tres optimizan el comportamiento del modelo, pero cuál utilizar depende del caso de uso objetivo y de los recursos disponibles.

Los modelos de IA generativa se entrenan a partir de conjuntos masivos de datos, muchos de los cuales se obtienen de Internet. Los desarrolladores de inteligencia artificial no suelen tener acceso a datos especializados, como los datos internos y de propiedad de una empresa. Cuando las organizaciones quieren aplicar modelos de lenguaje de gran tamaño (LLM) para necesidades específicas, necesitan ajustar la forma en la que funciona el modelo de IA generativa para producir los resultados y el comportamiento deseados.

El prompt engineering, la RAG y el fine-tuning ayudan a optimizar los resultados de un LLM para los casos de uso. Con ellos, los científicos de datos pueden obtener un mejor rendimiento descendente, una mayor precisión específica del dominio y un resultado que cumpla los requisitos pertinentes de formato, idioma o normativa.

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de los sectores, herramientas de IA y tendencias emergentes en prompt engineering con el boletín Think. Además, acceda a nuevos artículos explicativos, tutoriales y conocimientos de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

¿Cuál es la diferencia entre la RAG, el fine-tuning y el prompt engineering?

La diferencia entre el prompt engineering, la RAG y el fine-tuning abarca cuatro áreas principales de distinción:

  • Método

  • Metas

  • Necesidades de recursos 

  • Aplicaciones

Enfoque

El prompt engineering optimiza las instrucciones de entrada para dirigir un modelo hacia mejores resultados. El fine-tuning de los LLM los entrena con conjuntos de datos específicos del dominio para aumentar el rendimiento en las tareas posteriores. La RAG conecta un LLM a una base de datos y automatiza la recuperación de la información para aumentar las instrucciones con los datos pertinentes y lograr una mayor precisión.

Metas

La RAG, el prompt engineering y el ajuste finofine-tuning tienen el mismo resultado general: mejorar el rendimiento de un modelo para maximizar el valor para la empresa que lo utiliza. Pero, más concretamente, el prompt engineering debe llevar a un modelo a ofrecer los resultados que el usuario quiere. La RAG tiene como objetivo guiar un modelo para que proporcione resultados más relevantes y precisos. 

Mientras tanto, un modelo ajustado se vuelve a entrenar en un conjunto centrado de datos externos para mejorar el rendimiento en casos de uso específicos. Los tres métodos no son mutuamente excluyentes y a menudo se combinan para obtener resultados óptimos. 

Requisitos de recursos

El prompt engineering es la técnica de optimización que menos tiempo y recursos requiere. El prompt engineering básico se puede realizar de forma manual sin necesidad de invertir en recursos informáticos adicionales.

La RAG requiere experiencia en ciencia de datos para organizar conjuntos de datos empresariales y construir las canalizaciones de datos que conectan los LLM con esas fuentes de datos. Podría decirse que el fine-tuning es el más exigente porque los procesos de preparación y entrenamiento de datos requieren mucho tiempo y recursos informáticos.

Aplicaciones

El prompt engineering es el más flexible y brilla en situaciones abiertas con un abanico potencialmente diverso de resultados, como cuando se pide a un LLM que genere contenidos desde cero. El éxito de la generación de imágenes, vídeos y textos se basa en instrucciones sólidas.

El fine-tuning perfecciona un modelo para un trabajo altamente centrado, cuando los científicos de datos necesitan un modelo para hacer una cosa muy bien. La RAG es una solución ideal donde la información precisa, relevante y actual es primordial, como con los chatbots del servicio de atención al cliente.

AI Academy

Conviértase en un experto en IA

Obtenga los conocimientos necesarios para priorizar las inversiones en IA que impulsan el crecimiento empresarial. Dé sus primeros pasos hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

¿Por qué son importantes el prompt engineering, la RAG y el fine-tuning?

El prompt engineering ofrece una serie de métodos para dar a los modelos instrucciones explícitas sobre cómo comportarse. Con directrices claras, el comportamiento de los modelos puede esculpirse con mayor precisión sin tener que invertir en sistemas de recuperación o formación que consuman muchos recursos.

La RAG conecta un LLM a datos propios en tiempo real que, de otro modo, le serían inaccesibles. Los modelos RAG pueden ofrecer respuestas más precisas con el contexto añadido de los datos internos que sin ellos.

Un modelo ajustado suele superar a su modelo base correspondiente, como los de la familia GPT, cuando se aplica su entrenamiento con datos específicos del dominio. Con un mayor acceso al conocimiento externo, un LLM ajustado tiene una mejor comprensión del dominio específico y su terminología.

¿Qué es el prompt engineering ?

El prompt engineering es el proceso de crear instrucciones eficaces que guían un modelo hacia los resultados deseados sin ampliar su base de conocimientos. El proceso de prompt engineering no altera significativamente los parámetros de un modelo preentrenado.

El objetivo del prompt engineering es crear instrucciones que hagan que el resultado de un modelo cumpla con los requisitos específicos del caso de uso. Una mayor formación y un mayor acceso a datos no pueden compensar unas indicaciones deficientes.

¿Cómo funciona el prompt engineering?

El prompt engineering funciona ajustando la estructura y el contenido de las instrucciones de entrada en función de los resultados de modelos anteriores. Con cada iteración, el ingeniero de instrucciones aprende cómo responde el modelo a las entradas anteriores y utiliza esos resultados para informar la siguiente entrada. El objetivo es modificar el comportamiento del modelo mediante instrucciones claras.

Un buen prompt engineering se basa en avisos que indican a un modelo de procesamiento del lenguaje natural (PLN) exactamente qué hacer. El proceso de prompt engineering implica experimentar con el contenido, la estructura y el lenguaje de la instrucción para descubrir el formato óptimo que conduce al resultado necesario del modelo.

Compare un modelo de machine learning con un aspirante a cocinero casero que quiere hacer una cena estupenda. El prompt engineering sería equivalente a la de un amigo o pariente con más conocimientos que les ayuda a planificar su enfoque de la comida. Con consejos firmes sobre qué hacer y cómo, es más probable que el cocinero casero ansioso produzca algo delicioso.

¿Qué es la generación aumentada por recuperación (RAG)?

La RAG es un marco de arquitectura de datos que conecta un LLM con otros datos, como los datos propietarios de una organización, a menudo almacenados en lakehouses de datos. Los sistemas RAG añaden datos relevantes a las instrucciones del LLM para que el LLM pueda generar respuestas más precisas.

¿Cómo funciona la RAG?

La generación aumentada por recuperación funciona localizando los datos que son relevantes para la consulta del usuario y, a continuación, los utiliza para crear instrucciones más informativas. Se añade un mecanismo de recuperación de información para aumentar las instrucciones del LLM y ayudarlo a generar respuestas más relevantes.

Los modelos RAG generan respuestas a través de un proceso de cuatro etapas:

  1. Consulta: un usuario envía una consulta, que inicializa el sistema RAG.

  2. Recuperación de información: algoritmos complejos o API combinan bases de conocimiento internas y externas en busca de información relevante. 

  3. Integración: los datos recuperados se combinan con la consulta del usuario y se entregan al modelo RAG para responder. Hasta este momento, el LLM no ha procesado la consulta.

  4. Respuesta: al combinar los datos recuperados con su propia formación y conocimiento almacenado, el LLM genera una respuesta precisa y rica en contexto.

Al buscar en documentos, los sistemas GAR utilizan la búsqueda semántica. Las bases de datos vectoriales organizan los datos por similitud, lo que permite realizar búsquedas por significado, en lugar de por palabra clave. Las técnicas de búsqueda semántica permiten a los algoritmos RAG llegar más allá de las palabras clave hasta la intención de una consulta y devolver los datos más relevantes.

Los sistemas GAR requieren una amplia construcción y mantenimiento de la arquitectura de datos. Los ingenieros de datos deben construir las canalizaciones de datos necesarias para conectar los lakehouses de datos de su organización con el LLM y utilizar la RAG. Los sistemas RAG también necesitan un prompt engineering preciso para localizar los datos correctos y asegurarse de que el LLM sepa qué hacer con ellos.

Una vez más, imagine un modelo de IA generativa como un cocinero casero aficionado. Conoce los conceptos básicos de la cocina, pero carece de la información más reciente y del conocimiento experto de un chef formado en una cocina concreta. La RAG es como darle al cocinero casero un libro de recetas de esa cocina. Combinando sus conocimientos generales de cocina con las recetas del libro, el cocinero casero puede crear con facilidad sus platos favoritos de una cocina específica.

¿Qué es el fine-tuning?

El fine-tuning es el proceso de volver a entrenar un modelo preentrenado con un conjunto de datos de entrenamiento más pequeño y específico para dotarlo de conocimientos propios del dominio. A continuación, el modelo ajusta sus parámetros (las directrices que rigen su comportamiento) y sus incrustaciones para adaptarse mejor al conjunto de datos específico.

¿Cómo funciona el fine-tuning?

El fine-tuning consiste en exponer un modelo a un conjunto de datos de ejemplos etiquetados. El modelo mejora su entrenamiento inicial a medida que actualiza las ponderaciones del modelo en función de los nuevos datos. El fine-tuning es un método de aprendizaje supervisado, lo que significa que los datos utilizados en el entrenamiento están organizados y etiquetados. En contraste, la mayoría de los modelos base se someten a un aprendizaje no supervisado, en el que los datos no están ordenados y el modelo debe categorizarlos por su cuenta.

Una vez más, imaginando un modelo de IA generativa como un cocinero casero, el fine-tuning sería un curso de cocina específica. Antes de hacer el curso, el cocinero casero tendría un conocimiento general de los fundamentos de la cocina. Pero después de recibir formación culinaria y adquirir conocimientos específicos, sería mucho más competente a la hora de cocinar ese tipo de comida.

Fine-tuning completo en comparación con fine-tuning con parámetros eficientes

Los modelos pueden completamente afinados, que actualiza todos sus parámetros, o afinados de tal modo que se actualicen solo los parámetros más relevantes. Este último proceso se conoce como fine-tuning de parámetros eficientes (PEFT) y es una forma rentable de hacer que los modelos sean más eficaces en un determinado dominio.

El fine-tuning de un modelo es un proceso de cálculo intensivo que requiere varias GPU potentes funcionando en tándem, por no hablar de la memoria necesaria para almacenar el propio LLM. El PEFT permite a los usuarios de LLM volver a entrenar sus modelos en configuraciones de hardware más sencillas y, al mismo tiempo, obtener mejoras de rendimiento comparables en el caso de uso previsto del modelo, como la atención al cliente o el análisis de opiniones. El fine-tuning ayuda especialmente a los modelos a superar el sesgo, que es la diferencia entre las predicciones del modelo y los resultados reales. 

Fine-tuning en comparación con preentrenamiento continuo

El preentrenamiento tiene lugar al principio del proceso de entrenamiento. Las ponderaciones o parámetros del modelo se inicializan aleatoriamente y el modelo comienza a entrenarse con su conjunto de datos inicial. El preentrenamiento continuo introduce un modelo entrenado en un nuevo conjunto de datos sin etiquetar en una práctica conocida como aprendizaje por transferencia. El modelo preentrenado "transfiere" lo que ha aprendido hasta el momento a la nueva información externa.

En cambio, el fine-tuning utiliza datos etiquetados para perfeccionar el rendimiento de un modelo en un caso de uso seleccionado. El fine-tuning es excelente para perfeccionar la experiencia de un modelo en tareas específicas, mientras que el preentrenamiento continuo puede profundizar la experiencia de dominio de un modelo.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IA de IBM.

Explore las soluciones de IA
Servicios y consultoría de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Gracias a la IA, IBM Concert descubre información crucial sobre sus operaciones y ofrece recomendaciones de mejora personalizadas para cada aplicación. Descubra cómo Concert puede hacer avanzar su negocio.

Explorar el concierto Explore las soluciones de automatización de procesos empresariales