RAG vs. fine tuning

Estelas de luz de tránsito cerca del Big Ben y el Parlamento en el fondo al anochecer, Londres, Reino Unido.

Autores

Staff writer

Staff Editor, AI Models

IBM Think

RAG vs. fine tuning

La recuperación, la generación aumentada (RAG) y el fine tuning son dos métodos que las compañías pueden emplear para obtener más valor de los modelos LLM. Ambos funcionan adaptando el LLM a los casos de uso específicos, pero las metodologías detrás de ellos difieren significativamente.

Aunque la IA generativa recorrió un largo camino desde sus inicios, la tarea de generar respuestas automatizadas en tiempo real a las consultas de los usuarios sigue siendo un desafío importante. A medida que las compañías se apresuran a incorporar la IA generativa en sus procesos para reducir costos, optimizar los flujos de trabajo y mantener por delante de la competencia, a menudo luchan por lograr que sus chatbots y otros modelos generen respuestas precisas de manera confiable.

¿Cuál es la diferencia entre RAG y fine tuning?

La diferencia entre RAG y el fine tuning es que RAG aumenta un modelo de procesamiento del lenguaje natural (NLP) conectándolo a la base de datos patentada de una organización, mientras que el fine tuning optimiza los modelos de aprendizaje profundo para tareas específicas del dominio. RAG y el fine tuning tienen el mismo resultado deseado: mejorar el rendimiento de un modelo para maximizar el valor de la empresa que lo utiliza.

RAG emplea los datos internos de una organización para aumentar la ingeniería rápida, mientras que el refinamiento vuelve a capacitar un modelo en un conjunto enfocado de datos externos para mejorar el rendimiento.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

¿Por qué son importantes el GAR y el ajuste?

RAG conecta un LLM a almacenes de datos privados actuales que, de otro modo, serían inaccesibles para él. Los modelos RAG pueden devolver respuestas más precisas con el contexto agregado de los datos internos de lo que podrían hacerlo sin él.

Un modelo ajustado suele superar a su modelo base correspondiente, como GPT-3 o GPT-4, al aplicar su entrenamiento con datos específicos del dominio. El LLM perfeccionado tiene una mejor comprensión del dominio específico y su terminología, lo que le permite generar respuestas precisas.

Sin acceso continuo a nuevos datos, los modelos de lenguaje de gran tamaño se estancan. Los LLM modernos son redes neuronales masivas que requieren enormes conjuntos de datos y recursos computacionales para entrenar. Incluso los proveedores de LLM más grandes, como Meta, Microsoft y OpenAI, reentrenan periódicamente sus modelos, lo que hace que cualquier LLM quede obsoleto casi instantáneamente en el momento en que se lanza a la naturaleza.

Cuando los modelos no pueden aprender a partir de datos nuevos, a menudo alucinan o confabulan: un fenómeno que ocurre cuando los modelos de IA generativa “inventan” respuestas a preguntas que no pueden responder categóricamente. Los modelos de IA generativa emplean algoritmos estadísticos complejos para predecir las respuestas a las consultas de los usuarios. Si un usuario pregunta algo que la IA no puede encontrar fácilmente dentro de su conjunto de datos de entrenamiento, lo mejor que puede hacer es adivinar.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

¿Qué es la generación aumentada de recuperación (RAG)?

RAG es un método de optimización de LLM introducido por Meta AI en un documento de 2020 llamado “Retrieval-Augmented Generation for Knowledge-Intensive Tasks”^[1]. Se trata de un marco de arquitectura de datos que conecta un LLM con los datos patentados de una organización, a menudo almacenados en data lakehouses. Estas vastas plataformas de datos son dinámicas y contienen todos los datos que se mueven a través de la organización en todos los puntos de contacto, tanto internos como externos.

¿Cómo funciona RAG?

La generación aumentada de recuperación funciona mediante la localización de información en fuentes de datos internas que es relevante para la consulta del usuario y, a continuación, emplea esos datos para generar respuestas más precisas. Se agrega un mecanismo de "recuperación" de datos para "aumentar" el LLM ayudándolo a "generar" respuestas más relevantes.

Los modelos RAG generan respuestas a través de un proceso de cuatro etapas:

Consulta: un usuario envía una consulta, que inicializa el sistema RAG.
Recuperación de información: algoritmos complejos recorren las bases de conocimiento de la organización en busca de información relevante.
Integración: los datos recuperados se combinan con la consulta del usuario y se entregan al modelo RAG para que responda. Hasta este momento, el LLM no ha procesado la consulta.
Respuesta: Combinando los datos recuperados con su propia formación y los conocimientos almacenados, el LLM genera una respuesta contextualmente precisa.

Al buscar documentos internos, los sistemas RAG emplean la búsqueda semántica. Las bases de datos vectoriales organizan los datos por similitud, lo que permite realizar búsquedas por significado, en lugar de palabra clave. Las técnicas de búsqueda semántica permiten a los algoritmos RAG llegar a palabras clave anteriores a la intención de una consulta y devolver los datos más relevantes.

Los sistemas RAG requieren una amplia construcción y mantenimiento de la arquitectura de datos. Los ingenieros de datos deben crear los procesos de datos necesarios para conectar los lakehouses de datos de su organización con el LLM.

Para conceptualizar RAG, imagine un modelo de IA generativa como un cocinero casero aficionado. Conocen los conceptos básicos de la cocina, pero carecen del conocimiento experto (la base de datos patentada de una organización) de un chef capacitado en una cocina en particular. RAG es como darle al cocinero casero un libro de cocina para esa cocina. Al combinar su conocimiento general de cocina con las recetas del libro de cocina, el cocinero puede crear sus platos favoritos con facilidad.

El proceso de recuperación de datos de RAG

Para usar RAG de manera efectiva, los ingenieros de datos deben crear sistemas de almacenamiento de datos y canalizaciones que cumplan con una serie de criterios importantes como:

Almacenamiento de datos empresariales
Almacenamiento de documentos
Protección de datos
Ajuste rápido

Almacenamiento de datos empresariales

Para mejorar las funciones del sistema RAG y permitir la recuperación de datos en tiempo real, los datos deben organizarse y mantenerse meticulosamente. Los metadatos actualizados y la redundancia mínima de datos ayudan a garantizar una consulta eficaz.

Almacenamiento de documentos

Dividir datos no estructurados, como documentos, en fragmentos más pequeños puede facilitar una recuperación más efectiva. Al “fragmentar” los datos de esta manera, los sistemas RAG pueden devolver datos más precisos y, al mismo tiempo, reducir los costos porque solo la parte más relevante del documento se incluirá en la solicitud del LLM.

A continuación, los fragmentos se incrustan (un proceso que convierte texto en números) en una base de datos vectorial.

Protección de datos

Las canalizaciones de datos deben incluir restricciones de seguridad para evitar que los empleados accedan a datos que estén más allá del alcance de sus respectivas funciones. Y a raíz de la aprobación de leyes históricas en materia de privacidad, como el RGPD de la UE, las organizaciones deben aplicar rigurosas protecciones de datos a todos los datos internos. La información de identificación personal (PII) nunca debe ponerse a disposición de usuarios no autorizados.

Ajuste rápido

El sistema de generación aumentada por recuperación (RAG) combina la consulta del usuario con los datos obtenidos para crear una instrucción personalizada para el LLM. Un proceso continuo de ajuste de instrucciones facilitado por otros modelos de aprendizaje automático puede fortalecer la capacidad del sistema RAG para responder preguntas a lo largo del tiempo.

¿Qué es el refinamiento?

El refinamiento es el proceso de volver a capacitar un modelo previamente capacitado en un conjunto de datos de entrenamiento más pequeño y más enfocado para darle conocimiento específico del dominio. Luego, el modelo ajusta sus parámetros (las pautas que rigen su comportamiento) y sus incrustaciones para adaptar mejor al conjunto de datos específico.

¿Cómo funciona el refinamiento?

El refinamiento funciona exponiendo un modelo a un conjunto de datos de ejemplos etiquetados. El modelo mejora su entrenamiento inicial a medida que actualiza las ponderaciones de su modelo en función de los nuevos datos. El refinamiento es un método de aprendizaje supervisado , lo que significa que los datos empleados en el entrenamiento están organizados y etiquetados. Por el contrario, la mayoría de los modelos base se someten a un aprendizaje sin supervisar, en el que los datos no están ordenados: el modelo debe categorizarlos por sí solo.

Imaginando de nuevo un modelo de IA gen como un cocinero casero, el perfeccionamiento sería un curso de cocina específica. Antes de realizar el curso, el cocinero casero debe tener una comprensión general de los fundamentos de la cocina. Pero luego de recibir formación culinaria y adquirir conocimientos específicos del sector, serían mucho más competentes a la hora de cocinar ese tipo de comida.

Ajuste completo frente a ajuste eficiente de parámetros

Los modelos pueden ajustarse completamente, lo que actualiza todos sus parámetros, o ajustarse de manera que actualice solo los parámetros más relevantes. Este último proceso se conoce como ajuste eficiente de parámetros (PEFT) y se destaca por hacer que los modelos sean más efectivos en un determinado dominio, manteniendo bajos los costos de entrenamiento.

El fine tuning de un modelo requiere un uso intensivo de cálculo y múltiples GPU poderosos que se ejecutan en tándem, por no hablar de la memoria para almacenar el propio LLM. PEFT permite a los usuarios de LLM volver a capacitar sus modelos en configuraciones de hardware más simples, al tiempo que devuelve actualizaciones de rendimiento comparables en el caso de uso previsto del modelo, como la atención al cliente o el análisis de opinión. El refinamiento se destaca especialmente para ayudar a los modelos a superar el sesgo, que es una brecha entre las predicciones del modelo y los resultados del mundo real.

Refinamiento vs. preentrenamiento continuo

El preentrenamiento ocurre al comienzo del proceso de entrenamiento. Los pesos o parámetros del modelo se inician aleatoriamente y el modelo comienza a capacitarse con su conjunto inicial de datos. El preentrenamiento continuo introduce un modelo entrenado a un nuevo conjunto de datos sin etiquetar en una práctica conocida como aprendizaje por transferencia. El modelo preentrenado "transfiere" lo que aprendió hasta el momento a la nueva información externa.

Por el contrario, el refinamiento emplea datos etiquetados para perfeccionar el rendimiento de un modelo en un caso de uso seleccionado. El refinamiento se destaca por perfeccionar la experiencia de un modelo en tareas específicas, mientras que el entrenamiento previo continuo puede profundizar la experiencia de dominio de un modelo.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Recursos

La guía del CEO para la IA generativa

Descubra cómo los directores ejecutivos (CEO) pueden equilibrar el valor que la IA generativa puede crear con la inversión que exige y los riesgos que representa.

Lleve sus habilidades de IA generativa al siguiente nivel

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

IA en acción 2024

Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.

Explorar IBM Granite

IBM® Granite es nuestra familia de modelos abiertos de IA, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai

Reserve una demostración en vivo

Notas de pie de página

¹ “Retrieval-Augmented Generation for Knowledge-Intensive NLP Task”, Lewis y colaboradores, 12 de abril de 2021.