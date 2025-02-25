Los modelos de lenguaje de gran tamaño (LLM) generados a gran escala han transformado las aplicaciones de IA; sin embargo, todavía tienen varios inconvenientes, ya que su conocimiento es estático y solo puede provenir de sus datos de entrenamiento. En esta coyuntura es donde entra en juego la generación aumentada por recuperación (RAG).
RAG potencia los modelos de IA generativa intercalando la recuperación de datos en tiempo real, lo que garantiza que el proceso de recuperación produzca outputs más precisos y oportunos. Sin embargo, los modelos RAG vienen en diferentes formas, adecuadas principalmente para diferentes aplicaciones.
En este artículo, exploramos varias técnicas de RAG junto con su funcionamiento, las fortalezas y limitaciones de cada tipo de RAG y su usabilidad en varios casos de uso.
Para mejorar la eficacia general y la sostenibilidad de los modelos RAG, los sistemas de recuperación han evolucionado desde el RAG ingenuo hasta el RAG avanzado y el RAG modular para abordar los desafíos en rendimiento, coste y eficiencia. Exploremos cada técnica RAG en profundidad.
El RAG ingenuo es una implementación básica de la generación aumentada por recuperación, en la que la recuperación de información y la generación de respuestas se realizan sin optimizaciones ni feedback. En este entorno sencillo, el sistema recupera datos relevantes basados en una consulta, que luego simplemente se introducen en un modelo de lenguaje (como GPT) para generar la respuesta final2.
El RAG ingenuo se basa en un proceso bastante sencillo de tres pasos para la recuperación y la generación de contenido. Los siguientes pasos explican cómo funciona el proceso de recuperación:
La figura 1 ilustra el proceso de tres pasos (codificación, recuperación y generación de respuestas) de cómo funciona el RAG ingenuo.
El RAG ingenuo se adapta mejor a escenarios en los que la simplicidad, la velocidad y la facilidad de implementación son primordiales sobre la precisión y la flexibilidad avanzadas. La simplicidad de la arquitectura lo hace ideal para crear aplicaciones de prueba de concepto y permitir pruebas rápidas de ideas sin la carga de engorrosos ajustes del modelo. Por ejemplo, puede utilizarse eficazmente en:
a. Chatbots de atención al cliente: gestión de situaciones repetitivas de preguntas y respuestas frecuentes mediante el uso de respuestas LLM.
b. Resumen y recuperación de información: nivel básico de resumen mediante el uso de técnicas de procesamiento del lenguaje natural.
c. Sistemas de IA para empresas: recuperación rápida de datos relevantes de repositorios para responder a consultas comunes.
Aunque el RAG ingenuo es simple y rápido, el RAG avanzado ofrece mayor flexibilidad, escalabilidad y rendimiento, lo que lo hace adecuado para aplicaciones complejas del mundo real.
Comprendamos qué es el RAG avanzado y cuáles son sus principales ventajas.
El RAG avanzado combina el poder de una mejor recuperación y generación mediante el uso de algoritmos sofisticados, reordenadores, LLM ajustados y bucles de feedback. Estas mejoras aumentan la precisión, la adaptabilidad y el rendimiento, lo que convierte a estos modelos en la mejor opción para aplicaciones más complejas y de nivel industrial5.
El RAG avanzado funciona como un proceso secuencial basado en pasos de la siguiente manera:
1. Procesamiento de consultas: al recibir una consulta del usuario, esta se transforma en un vector de alta dimensión mediante el modelo de incrustación, que captura el significado semántico de la consulta.
2. Recuperación de documentos: la consulta codificada recorre una gran base de datos de conocimientos y proporciona resultados mediante una combinación de búsqueda vectorial densa y recuperación dispersa, es decir, similitud semántica y búsqueda basada en palabras clave. Así, los resultados incluyen coincidencias semánticas de palabras clave en los documentos recuperados.
3. Reclasificación de los documentos recuperados: el recuperador otorga una puntuación final basada en el contexto y en relación con la consulta que recupera los documentos.
4. Fusión contextual para la generación: dado que cada documento se codifica de forma diferente, el decodificador fusiona todos los contextos codificados para garantizar que las respuestas generadas tengan coherencia con la consulta codificada.
5. Generación de respuestas: el generador de RAG avanzado, normalmente un LLM como el modelo IBM Granite o Llama, proporciona la respuesta a partir de los documentos recuperados.
6. Bucle de feedback: el RAG avanzado utiliza diversas técnicas, como el aprendizaje activo, el aprendizaje por refuerzo y el entrenamiento conjunto del recuperador y el generador, para mejorar continuamente su rendimiento. Durante esta fase se producen señales implícitas, como clics en documentos recuperados que infieren relevancia, lo que provoca un feedback explícito en forma de correcciones o valoraciones que se aplicarán posteriormente durante la generación. Por lo tanto, con el paso de los años, estas estrategias mejoran los procesos de recuperación y generación de respuestas, de modo que pueden producirse respuestas más precisas y relevantes6.
La figura 2 ilustra el proceso paso a paso de cómo funciona el RAG avanzado.
El RAG avanzado es extremadamente versátil para una variedad de aplicaciones en los sectores debido a las capacidades de recuperación de información en tiempo real y respuestas dinámicas, precisas y basadas en el contexto. Su aplicación abarca desde la mejora del servicio de atención al cliente hasta la provisión de información relevante que facilita la toma de decisiones y enriquece las experiencias de aprendizaje personalizadas. La mejora en la recuperación y generación de información gracias al RAG avanzado lo hace práctico para aplicaciones en tiempo real, pero su escalabilidad y usabilidad no son adecuadas para casos de uso en entornos de producción.
El RAG modular es la variante más avanzada, en la que la recuperación de información y el modelo generativo funcionan en una arquitectura abierta y componible, similar a un proceso lineal. Este enfoque permite que diferentes casos de uso funcionen mejor gracias a su capacidad de personalización y escalabilidad.
Al desglosar el proceso de RAG en módulos, es posible adaptar, depurar y optimizar cada componente de forma independiente. Veamos ahora cómo funciona el RAG modular en la práctica7.
1. Procesamiento de consultas de usuarios: el primer paso es que el usuario envíe una consulta, como: "¿Cuál es el libro más popular en el mercado actualmente?" A continuación, un módulo de procesamiento de consultas transforma la entrada, lo que podría incluir reformular la consulta, eliminar ambigüedades y realizar un análisis semántico para proporcionar un contexto más informado antes de enviarla para su recuperación.
2. Módulo de recuperación: el módulo de recuperación procesa la consulta en la base de datos vectorial o la base de conocimientos para obtener los documentos relevantes. Realiza la recuperación utilizando el paradigma de similitud basado en el embedding.
3. Módulo de filtrado y clasificación: los documentos recuperados se filtran por metadatos, actualidad o relevancia. Y un modelo de reclasificación puntúa y prioriza la información más útil.
4. Módulo de aumento de contexto: este módulo alimenta la información recuperada con gráficos de conocimiento, incrusta datos estructurados procedentes de bases de datos y API y aplica compresión de recuperación para lograr la mejor recuperación de contenido.
5. Generación de respuestas: el LLM procesa la consulta del usuario junto con el contexto recuperado para generar una respuesta coherente y precisa, minimizando las alucinaciones y garantizando la relevancia.
6. Módulo de posprocesamiento: este módulo garantiza la precisión mediante la verificación de datos, mejora la legibilidad con un formato estructurado y aumenta la credibilidad mediante la generación de citas.
7. Output y el bucle de feedback: el output final de la respuesta se presenta al usuario mientras se crea un bucle de feedback a partir de su interacción para ayudar a refinar la recuperación y el rendimiento del modelo a lo largo del tiempo.
La figura 3 ilustra el proceso paso a paso de cómo funciona el RAG modular.
El RAG avanzado se adapta a casos de uso en los que la aplicación requiere una gran personalización, como técnicas de recuperación y clasificación específicas de un dominio. La escalabilidad y la facilidad de mantenimiento son importantes para las aplicaciones que implican sistemas a gran escala y se está llevando a cabo una experimentación continua con diferentes modelos y estrategias de recuperación8.
El RAG ingenuo es sencillo y rápido, pero el RAG modular, que a menudo se construye con marcos como LangChain, ofrece una mayor flexibilidad, escalabilidad y rendimiento, por lo que es más adecuado para aplicaciones complejas del mundo real. Advanced RAG mejora la precisión al recuperar información específica del contexto en tiempo real que ayuda a minimizar los errores. Se adapta dinámicamente, incorporando los comentarios de los usuarios a través del aprendizaje activo y el aprendizaje por refuerzo (RLHF). Además, refuerza el conocimiento específico del dominio mediante la integración de bases de datos especializadas. También optimiza la ventana contextual del LLM al obtener solo los datos más pertinentes, lo que mejora la eficiencia. No obstante, los sistemas RAG avanzados se enfrentan a retos como una mayor demanda de computación y latencia debido a los procesos de recuperación y generación. Requieren recursos significativos para gestionar extensas bases de conocimiento e implican una implementación y un mantenimiento complejos, especialmente cuando se ajustan los recuperadores, los modelos de clasificación y los generadores de respuestas. Este espacio es donde sobresalen las arquitecturas RAG modulares que se desarrollan utilizando LangChain. Su diseño modular permite una personalización flexible, lo que permite ajustar o intercambiar componentes individuales, como perros perdigueros, clasificadores y generadores, de forma independiente. Este método mejora la capacidad de mantenimiento al facilitar la depuración y las actualizaciones sin interrumpir todo el sistema. La escalabilidad se logra distribuyendo los módulos entre diversos recursos, mientras que los costes se gestionan optimizando los procesos de recuperación y minimizando el uso de LLM 9, 10.
Se está llevando a cabo un desarrollo activo en sistemas de recuperación que aprovechan técnicas avanzadas de prompt engineering y métodos de afinado para mejorar los modelos RAG con el fin de generar contenidos de alta precisión, lo que garantiza un mejor rendimiento y escalabilidad.
Los futuros avances en los enfoques de auto-RAG, los modelos de IA multimodales y las métricas mejoradas seguirán perfeccionando el proceso de recuperación, lo que garantizará una mejor gestión del contexto adicional en las interacciones de lenguaje natural.
