La recuperación, la generación aumentada (RAG) y el fine tuning son dos métodos que las compañías pueden emplear para obtener más valor de los modelos LLM. Ambos funcionan adaptando el LLM a los casos de uso específicos, pero las metodologías detrás de ellos difieren significativamente.
Aunque la IA generativa recorrió un largo camino desde sus inicios, la tarea de generar respuestas automatizadas en tiempo real a las consultas de los usuarios sigue siendo un desafío importante. A medida que las compañías se apresuran a incorporar la IA generativa en sus procesos para reducir costos, optimizar los flujos de trabajo y mantener por delante de la competencia, a menudo luchan por lograr que sus chatbots y otros modelos generen respuestas precisas de manera confiable.
La diferencia entre RAG y el fine tuning es que RAG aumenta un modelo de procesamiento del lenguaje natural (NLP) conectándolo a la base de datos patentada de una organización, mientras que el fine tuning optimiza los modelos de aprendizaje profundo para tareas específicas del dominio. RAG y el fine tuning tienen el mismo resultado deseado: mejorar el rendimiento de un modelo para maximizar el valor de la empresa que lo utiliza.
RAG emplea los datos internos de una organización para aumentar la ingeniería rápida, mientras que el refinamiento vuelve a capacitar un modelo en un conjunto enfocado de datos externos para mejorar el rendimiento.
RAG conecta un LLM a almacenes de datos privados actuales que, de otro modo, serían inaccesibles para él. Los modelos RAG pueden devolver respuestas más precisas con el contexto agregado de los datos internos de lo que podrían hacerlo sin él.
Un modelo ajustado suele superar a su modelo base correspondiente, como GPT-3 o GPT-4, al aplicar su entrenamiento con datos específicos del dominio. El LLM perfeccionado tiene una mejor comprensión del dominio específico y su terminología, lo que le permite generar respuestas precisas.
Sin acceso continuo a nuevos datos, los modelos de lenguaje de gran tamaño se estancan. Los LLM modernos son redes neuronales masivas que requieren enormes conjuntos de datos y recursos computacionales para entrenar. Incluso los proveedores de LLM más grandes, como Meta, Microsoft y OpenAI, reentrenan periódicamente sus modelos, lo que hace que cualquier LLM quede obsoleto casi instantáneamente en el momento en que se lanza a la naturaleza.
Cuando los modelos no pueden aprender a partir de datos nuevos, a menudo alucinan o confabulan: un fenómeno que ocurre cuando los modelos de IA generativa “inventan” respuestas a preguntas que no pueden responder categóricamente. Los modelos de IA generativa emplean algoritmos estadísticos complejos para predecir las respuestas a las consultas de los usuarios. Si un usuario pregunta algo que la IA no puede encontrar fácilmente dentro de su conjunto de datos de entrenamiento, lo mejor que puede hacer es adivinar.
RAG es un método de optimización de LLM introducido por Meta AI en un documento de 2020 llamado “Retrieval-Augmented Generation for Knowledge-Intensive Tasks”[1]. Se trata de un marco de arquitectura de datos que conecta un LLM con los datos patentados de una organización, a menudo almacenados en data lakehouses. Estas vastas plataformas de datos son dinámicas y contienen todos los datos que se mueven a través de la organización en todos los puntos de contacto, tanto internos como externos.
La generación aumentada de recuperación funciona mediante la localización de información en fuentes de datos internas que es relevante para la consulta del usuario y, a continuación, emplea esos datos para generar respuestas más precisas. Se agrega un mecanismo de "recuperación" de datos para "aumentar" el LLM ayudándolo a "generar" respuestas más relevantes.
Los modelos RAG generan respuestas a través de un proceso de cuatro etapas:
Consulta: un usuario envía una consulta, que inicializa el sistema RAG.
Recuperación de información: algoritmos complejos recorren las bases de conocimiento de la organización en busca de información relevante.
Integración: los datos recuperados se combinan con la consulta del usuario y se entregan al modelo RAG para que responda. Hasta este momento, el LLM no ha procesado la consulta.
Respuesta: Combinando los datos recuperados con su propia formación y los conocimientos almacenados, el LLM genera una respuesta contextualmente precisa.
Al buscar documentos internos, los sistemas RAG emplean la búsqueda semántica. Las bases de datos vectoriales organizan los datos por similitud, lo que permite realizar búsquedas por significado, en lugar de palabra clave. Las técnicas de búsqueda semántica permiten a los algoritmos RAG llegar a palabras clave anteriores a la intención de una consulta y devolver los datos más relevantes.
Los sistemas RAG requieren una amplia construcción y mantenimiento de la arquitectura de datos. Los ingenieros de datos deben crear los procesos de datos necesarios para conectar los lakehouses de datos de su organización con el LLM.
Para conceptualizar RAG, imagine un modelo de IA generativa como un cocinero casero aficionado. Conocen los conceptos básicos de la cocina, pero carecen del conocimiento experto (la base de datos patentada de una organización) de un chef capacitado en una cocina en particular. RAG es como darle al cocinero casero un libro de cocina para esa cocina. Al combinar su conocimiento general de cocina con las recetas del libro de cocina, el cocinero puede crear sus platos favoritos con facilidad.
Para usar RAG de manera efectiva, los ingenieros de datos deben crear sistemas de almacenamiento de datos y canalizaciones que cumplan con una serie de criterios importantes como:
Para mejorar las funciones del sistema RAG y permitir la recuperación de datos en tiempo real, los datos deben organizarse y mantenerse meticulosamente. Los metadatos actualizados y la redundancia mínima de datos ayudan a garantizar una consulta eficaz.
Dividir datos no estructurados, como documentos, en fragmentos más pequeños puede facilitar una recuperación más efectiva. Al “fragmentar” los datos de esta manera, los sistemas RAG pueden devolver datos más precisos y, al mismo tiempo, reducir los costos porque solo la parte más relevante del documento se incluirá en la solicitud del LLM.
A continuación, los fragmentos se incrustan (un proceso que convierte texto en números) en una base de datos vectorial.
Las canalizaciones de datos deben incluir restricciones de seguridad para evitar que los empleados accedan a datos que estén más allá del alcance de sus respectivas funciones. Y a raíz de la aprobación de leyes históricas en materia de privacidad, como el RGPD de la UE, las organizaciones deben aplicar rigurosas protecciones de datos a todos los datos internos. La información de identificación personal (PII) nunca debe ponerse a disposición de usuarios no autorizados.
El sistema de generación aumentada por recuperación (RAG) combina la consulta del usuario con los datos obtenidos para crear una instrucción personalizada para el LLM. Un proceso continuo de ajuste de instrucciones facilitado por otros modelos de aprendizaje automático puede fortalecer la capacidad del sistema RAG para responder preguntas a lo largo del tiempo.
El refinamiento es el proceso de volver a capacitar un modelo previamente capacitado en un conjunto de datos de entrenamiento más pequeño y más enfocado para darle conocimiento específico del dominio. Luego, el modelo ajusta sus parámetros (las pautas que rigen su comportamiento) y sus incrustaciones para adaptar mejor al conjunto de datos específico.
El refinamiento funciona exponiendo un modelo a un conjunto de datos de ejemplos etiquetados. El modelo mejora su entrenamiento inicial a medida que actualiza las ponderaciones de su modelo en función de los nuevos datos. El refinamiento es un método de aprendizaje supervisado , lo que significa que los datos empleados en el entrenamiento están organizados y etiquetados. Por el contrario, la mayoría de los modelos base se someten a un aprendizaje sin supervisar, en el que los datos no están ordenados: el modelo debe categorizarlos por sí solo.
Imaginando de nuevo un modelo de IA gen como un cocinero casero, el perfeccionamiento sería un curso de cocina específica. Antes de realizar el curso, el cocinero casero debe tener una comprensión general de los fundamentos de la cocina. Pero luego de recibir formación culinaria y adquirir conocimientos específicos del sector, serían mucho más competentes a la hora de cocinar ese tipo de comida.
Los modelos pueden ajustarse completamente, lo que actualiza todos sus parámetros, o ajustarse de manera que actualice solo los parámetros más relevantes. Este último proceso se conoce como ajuste eficiente de parámetros (PEFT) y se destaca por hacer que los modelos sean más efectivos en un determinado dominio, manteniendo bajos los costos de entrenamiento.
El fine tuning de un modelo requiere un uso intensivo de cálculo y múltiples GPU poderosos que se ejecutan en tándem, por no hablar de la memoria para almacenar el propio LLM. PEFT permite a los usuarios de LLM volver a capacitar sus modelos en configuraciones de hardware más simples, al tiempo que devuelve actualizaciones de rendimiento comparables en el caso de uso previsto del modelo, como la atención al cliente o el análisis de opinión. El refinamiento se destaca especialmente para ayudar a los modelos a superar el sesgo, que es una brecha entre las predicciones del modelo y los resultados del mundo real.
El preentrenamiento ocurre al comienzo del proceso de entrenamiento. Los pesos o parámetros del modelo se inician aleatoriamente y el modelo comienza a capacitarse con su conjunto inicial de datos. El preentrenamiento continuo introduce un modelo entrenado a un nuevo conjunto de datos sin etiquetar en una práctica conocida como aprendizaje por transferencia. El modelo preentrenado "transfiere" lo que aprendió hasta el momento a la nueva información externa.
Por el contrario, el refinamiento emplea datos etiquetados para perfeccionar el rendimiento de un modelo en un caso de uso seleccionado. El refinamiento se destaca por perfeccionar la experiencia de un modelo en tareas específicas, mientras que el entrenamiento previo continuo puede profundizar la experiencia de dominio de un modelo.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 “Retrieval-Augmented Generation for Knowledge-Intensive NLP Task”, Lewis y colaboradores, 12 de abril de 2021.