Los modelos de lenguaje de gran tamaño (LLM) generados a gran escala han transformado las aplicaciones de IA; sin embargo, todavía tienen varios inconvenientes, ya que su conocimiento es estático y solo puede provenir de sus datos de entrenamiento. En esta coyuntura es donde entra en juego la generación aumentada por recuperación (RAG, por sus siglas en inglés).
RAG agrega potencia a los modelos de IA generativa al intercalar la recuperación de datos en tiempo real, lo que garantiza que el proceso de recuperación produzca resultados más precisos y oportunos. Sin embargo, los modelos RAG vienen en diferentes formas, adecuadas principalmente para diferentes aplicaciones1.
En este artículo, exploramos varias técnicas de RAG junto con su funcionamiento, las fortalezas y limitaciones de cada tipo de RAG y su usabilidad en varios casos de uso.
Para mejorar la eficacia general y la sustentabilidad de los modelos RAG, los sistemas de recuperación han evolucionado de RAG ingenua a RAG avanzada y RAG modular para abordar los desafíos de rendimiento, costo y eficiencia. Exploremos cada técnica RAG en profundidad.
La RAG ingenua es una implementación básica de generación aumentada por recuperación, donde la recuperación de información y la generación de respuestas se realizan sin optimizaciones ni feedback. En esta configuración sencilla, el sistema recupera datos relevantes basados en una consulta, que luego simplemente se introducen en un modelo de lenguaje (como GPT) para generar la respuesta final2.
La RAG ingenua se basa en un proceso bastante sencillo de tres pasos para la recuperación y generación de contenido. Los siguientes pasos explican cómo funciona el proceso de recuperación:
La figura 1 ilustra el proceso de tres pasos (codificación, recuperación y generación de respuestas) de cómo funciona la RAG ingenua.
La RAG ingenua se adapta mejor a escenarios en los que la simplicidad, la velocidad y la facilidad de despliegue son primordiales por sobre la precisión y la flexibilidad avanzadas. La simplicidad de la arquitectura la hace ideal para crear aplicaciones de prueba de concepto y permitir pruebas rápidas de ideas sin la carga de engorrosos ajustes del modelo. Por ejemplo, se puede utilizar eficazmente en:
a. Chatbots de atención al cliente: manejo de escenarios de preguntas y respuestas repetitivas frecuentes mediante el uso de respuestas del LLM.
b. Resumen y recuperación de información: proporcionar un nivel básico de resumen mediante el uso de técnicas de procesamiento de lenguaje natural.
c. Sistemas de IA para empresas: recuperación rápida de datos relevantes de repositorios para responder consultas comunes.
Aunque la RAG ingenua es simple y rápida, la RAG avanzada ofrece mayor flexibilidad, escalabilidad y rendimiento, lo que la hace adecuada para aplicaciones complejas del mundo real.
Comprendamos qué es la RAG avanzada y qué ofertas clave ofrece.
La RAG avanzada combina el poder de una mejor recuperación y generación mediante el uso de algoritmos sofisticados: una serie de ideas, como reclasificadores, LLM ajustados y bucles de feedback. Esto aporta mejoras en la precisión, la adaptabilidad y el rendimiento que hacen de estos modelos las mejores opciones para aplicaciones más complejas y de nivel de producción5.
La RAG avanzada funciona como un proceso secuencial basado en pasos de la siguiente manera:
1. Procesamiento de consultas: tras la recepción de una consulta del usuario, se transforma en un vector de alta dimensión mediante el uso del modelo de incorporación que captura el significado semántico de la consulta.
2. Recuperación de documentos: la consulta codificada atraviesa una enorme base de datos de conocimientos que proporciona recuperación híbrida mediante el uso de búsqueda vectorial densa y recuperación dispersa, es decir, similitud semántica y búsqueda basada en palabras clave. Por lo tanto, los resultados introducen coincidencias semánticas de palabras clave en los documentos recuperados.
3. Reclasificación de documentos recuperados: el recuperador otorga una puntuación final basada en el contexto y en relación con la consulta que pide los documentos.
4. Fusión contextual para la generación: debido a que cada documento se codifica de manera diferente, el decodificador fusiona todos los contextos codificados para garantizar que las respuestas generadas tengan coherencia con la consulta codificada.
5. Generación de respuestas: el generador de la RAG avanzada, generalmente un LLM, como el modelo IBM Granite o Llama, proporciona la respuesta basada en los documentos recuperados.
6. Bucle de feedback: Como RAG avanzada, utiliza diversas técnicas como aprendizaje activo, aprendizaje por refuerzo y coentrenamiento con generador de recuperación para mejorar continuamente su desempeño. Durante esta fase, se producen señales implícitas, como clics en documentos recuperados que infieren relevancia y provocan un feedback explícito que incluye correcciones o calificaciones para su posterior aplicación durante la generación. Por lo tanto, a lo largo de los años, estas estrategias mejoran los procesos de recuperación y generación de respuestas para que se puedan producir respuestas más precisas y relevantes6.
La figura 2 ilustra el proceso paso a paso de cómo funciona la RAG avanzada.
La RAG avanzada es extremadamente versátil para una variedad de aplicaciones en todas las industrias debido a la capacidad de recuperación de información en tiempo real y respuestas dinámicas, precisas y basadas en el contexto. Su aplicación varía desde permitir la atención al cliente hasta brindar información relevante, mejorando así la toma de decisiones y agregando mejoras a las experiencias de aprendizaje personalizadas. La recuperación y generación mejoradas a través de la RAG avanzada la hacen práctica para aplicaciones en tiempo real, pero la escalabilidad y la usabilidad están por debajo de la media para los casos de uso a nivel de producción.
La RAG modular es la variante más avanzada de RAG, donde la recuperación de información y el modelo generativo funcionan en una arquitectura abierta y componible lineal tipo pipeline. Este enfoque permite que diferentes casos de uso funcionen mejor con la personalización y la escalabilidad.
Al desagregar el acto de la RAG en módulos, es posible adaptar, depurar y optimizar mejor cada componente de forma independiente. Ahora veamos cómo funciona la RAG modular en acción real7.
1. Procesamiento de consultas del usuario: el primer paso es que el usuario envíe una consulta, como "¿Cuál es el libro más popular en el mercado en estos días?" Luego, un módulo de procesamiento de consultas transforma la entrada que podría incluir reformular la consulta, eliminar ambigüedades y realizar un análisis semántico para proporcionar un contexto más informado antes de enviarla para su recuperación.
2. Módulo de recuperación: el módulo de recuperación procesa la consulta en la base de datos vectorial o base de conocimientos para obtener documentos relevantes. Realiza la recuperación mediante el uso del paradigma de similitud basado en la incorporación.
3. Módulo de filtrado y clasificación: los documentos recuperados se filtran mediante metadatos, actualidad o relevancia. Y un modelo de reclasificación da una puntuación y prioriza la información más útil.
4. Módulo de aumento de contexto: este módulo alimenta la información recuperada con gráficos de conocimiento, incorpora datos estructurados provenientes de bases de datos y API, y aplica compresión de recuperación para lograr la mejor recuperación de contenido.
5. Generación de respuestas: el LLM procesa la consulta del usuario junto con el contexto recuperado para generar una respuesta coherente y precisa, minimizando las alucinaciones y garantizando la relevancia.
6. Módulo de posprocesamiento: este módulo garantiza la precisión a través de la verificación de datos, mejora la legibilidad con un formato estructurado y aumenta la credibilidad mediante la generación de citas.
7. Salida y bucle de feedback: el resultado final de la respuesta se presenta al usuario, mientras que se crea un bucle de feedback a partir de su interacción para ayudar a refinar la recuperación y el rendimiento del modelo a lo largo del tiempo.
La figura 3 ilustra el proceso paso a paso de cómo funciona la RAG modular.
La RAG avanzada se adapta a casos de uso en los que la aplicación requiere una inmensa personalización, por ejemplo, técnicas de recuperación y clasificación específicas del dominio. La escalabilidad y la mantenibilidad son importantes para las aplicaciones que involucran sistemas a gran escala y existe una experimentación continua con diferentes modelos y estrategias de recuperación8.
Si bien la RAG ingenua es sencilla y rápida, la RAG modular, a menudo creada con un marco como LangChain, proporciona mayor flexibilidad, escalabilidad y rendimiento, lo que la hace más adecuada para aplicaciones del mundo real. La RAG avanzada mejora la precisión al recuperar información específica del contexto en tiempo real que ayuda a minimizar los errores. Se adapta dinámicamente, incorporando el feedback de los usuarios a través del aprendizaje activo y el aprendizaje por refuerzo (RLHF). Además, refuerza el conocimiento específico del dominio integrando bases de datos especializadas. También optimiza la ventana de contexto del LLM al obtener solo los datos más pertinentes, lo que mejora la eficiencia. No obstante, los sistemas RAG avanzados enfrentan desafíos, como mayores demandas de cómputo y latencia debido a los procesos de recuperación y generación. Requieren recursos significativos para gestionar amplias bases de conocimientos e implican una implementación y un mantenimiento complejos, especialmente cuando se ajustan los recuperadores, los modelos de clasificación y los generadores de respuestas. Este espacio es donde sobresalen las arquitecturas RAG modulares que se desarrollan con LangChain. Su diseño modular permite una personalización flexible, lo que permite que los componentes individuales, como recuperadores, clasificadores y generadores, se ajusten o intercambien de forma independiente. Este método mejora la capacidad de mantenimiento al facilitar la depuración y las actualizaciones sin interrumpir todo el sistema. La escalabilidad se logra distribuyendo módulos en varios recursos, mientras que los costos se gestionan optimizando los procesos de recuperación y minimizando el uso de LLM 9, 10.
El desarrollo activo en sistemas de recuperación que aprovechan técnicas avanzadas de Ingeniería rápida y métodos de ajuste para mejorar los modelos RAG para la generación de contenido de alta precisión garantizan un mejor rendimiento y escalabilidad.
Los avances futuros en los enfoques de auto-RAG, los modelos de IA multimodal y las métricas mejoradas continuarán refinando el proceso de recuperación, asegurando un mejor manejo del contexto adicional en las interacciones de lenguaje natural.
