Tiempo de lectura
RAG agéntica se refiere al uso de agentes de IA para facilitar la generación aumentada por recuperación (RAG). Los sistemas de RAG agéntica agregan agentes de IA al pipeline de RAG para mejorar la adaptabilidad y la precisión. En comparación con los sistemas de RAG tradicionales, la RAG agéntica permite que los modelos de lenguaje extensos (LLM) lleven a cabo la recuperación de información de múltiples fuentes y se ocupen de flujos de trabajo más complejos.
La generación aumentada por recuperación es una aplicación de la inteligencia artificial (IA) que conecta un modelo de IA generativa con una base de conocimiento externa. Los datos de la base de conocimiento refuerzan las consultas de los usuarios con más contexto para que el LLM pueda generar respuestas más precisas. La RAG permite que los LLM sean más precisos en contextos de un dominio específico sin necesidad de hacer ajuste fino.
En lugar de depender únicamente de los datos de entrenamiento, los modelos de IA habilitados por RAG pueden acceder a los datos actuales en tiempo real a través de las API y otras conexiones a fuentes de datos. Un pipeline estándar de RAG consta de dos modelos de IA:
El componente de recuperación de información, normalmente un modelo de incorporación en combinación con una base de datos vectorial que contiene los datos que se van a recuperar.
El componente de IA generativa, generalmente un LLM.
En respuesta a las consultas de los usuarios en lenguaje natural, el modelo de incorporación convierte la consulta en una incorporación vectorial y, a continuación, recupera datos similares de la base de conocimiento. El sistema de IA combina los datos recuperados con la consulta del usuario para generar una respuesta basada en la conciencia contextual.
La IA agéntica es un tipo de IA que puede determinar y llevar a cabo un curso de acción por sí misma. La mayoría de los agentes disponibles al momento de la publicación son LLM con capacidades de llamada de funciones, lo que significa que pueden recurrir a herramientas para realizar tareas. En teoría, los agentes de IA son LLM con tres características importantes:
Tienen memoria, tanto a corto como a largo plazo, lo que les permite planificar y ejecutar tareas complejas. La memoria también permite a los agentes consultar tareas anteriores y utilizar esos datos para fundamentar flujos de trabajo futuros. Los sistemas de RAG agéntica utilizan el almacenamiento en caché semántico para almacenar y consultar conjuntos anteriores de consultas, contexto y resultados.
Son capaces de enrutar consultas, planificar paso a paso y tomar decisiones. Los agentes utilizan sus capacidades de memoria para retener información y trazar un curso de acción adecuado en respuesta a consultas e instrucciones complejas.
Pueden realizar llamadas de herramientas a través de API. Los agentes más capaces pueden elegir qué herramientas usar para el flujo de trabajo que generan en respuesta a las interacciones del usuario.
Los flujos de trabajo agénticos pueden constar de un agente de IA o de sistemas multiagente que combinan varios agentes.
La RAG agéntica aporta varias mejoras significativas con respecto a la implementación tradicional de la RAG:
Flexibilidad: las aplicaciones de RAG agéntica extraen datos de múltiples bases de conocimiento externas y permiten el uso de herramientas externas. Los pipelines estándar de RAG conectan un LLM a un solo conjunto de datos externo. Por ejemplo, muchos sistemas de RAG empresariales combinan un chatbot con una base de conocimiento que contiene datos propiedad de la organización.
Adaptabilidad: los sistemas de RAG tradicionales son herramientas de recuperación de datos reactivas que encuentran información relevante en respuesta a consultas específicas. El sistema RAG no tiene capacidad para adaptarse a contextos cambiantes ni para acceder a otros datos. Los resultados óptimos a menudo requieren una extensa ingeniería rápida.
Mientras tanto, la RAG agéntica es la transición de una consulta estática basada en reglas a una resolución de problemas inteligente y adaptativa. Los sistemas multiagente alientan a varios modelos de IA a colaborar y a verificar su trabajo entre sí.
Precisión: los sistemas RAG tradicionales no validan ni optimizan sus propios resultados. Las personas deben discernir si el sistema está funcionando a un nivel aceptable. El sistema por sí mismo no tiene forma de saber si está encontrando los datos correctos o incorporándolos exitosamente para facilitar la generación con conciencia contextual. Sin embargo, los agentes de IA pueden iterar en procesos anteriores para optimizar los resultados con el tiempo.
Escalabilidad: gracias a redes de agentes de RAG trabajando en conjunto, aprovechando múltiples fuentes de datos externas y utilizando capacidades de planificación y llamada de herramientas, la RAG agéntica tiene mayor escalabilidad. Los desarrolladores pueden construir sistemas de RAG flexibles y escalables que pueden ocuparse de una amplia gama de consultas de los usuarios.
Multimodalidad: los sistemas de RAG agéntica se benefician de los avances recientes en los LLM multimodales para trabajar con una mayor variedad de tipos de datos, como imágenes y archivos de audio. Los modelos multimodales procesan múltiples tipos de datos estructurados, semiestructurados y no estructurados. Por ejemplo, varios modelos GPT recientes pueden generar contenido visual y de audio además de texto estándar.
Piense en varios empleados de una oficina. Un sistema de RAG tradicional sería el empleado que se desempeña bien cuando se le dan tareas específicas y se le dice cómo realizarlas. Es reacio a tomar la iniciativa y le resulta difícil no apegarse a las instrucciones explícitas.
En comparación, un sistema de RAG agéntica sería un equipo proactivo y creativo. Sus miembros también siguen instrucciones perfectamente, pero les encanta tomar la iniciativa y resolver los retos por sí mismos. No temen proponer sus propias soluciones a tareas complejas que podrían dejar perplejos o intimidar a sus colegas.
Si bien la RAG agéntica optimiza los resultados con llamadas de funciones, razonamiento de múltiples pasos y sistemas multiagente, no siempre es la mejor opción. Un mayor número de agentes en el trabajo se traduce en mayores gastos, y un sistema de RAG agéntica normalmente requiere que se pague por más tokens. Aunque la RAG agéntica puede aumentar la velocidad con respecto a la RAG tradicional, los LLM también introducen latencia porque el modelo puede tardar más tiempo en generar sus salidas.
Por último, los agentes no siempre son fiables. Es posible que tengan dificultades e incluso no logren completar las tareas, dependiendo de la complejidad y los agentes empleados. Los agentes no siempre colaboran sin problemas y pueden competir por los recursos. Cuantos más agentes haya en un sistema, más compleja se vuelve la colaboración, así como aumentan las probabilidades de que se presenten complicaciones. E incluso el sistema de RAG más hermético no puede eliminar por completo el potencial de alucinaciones.
La RAG agéntica incorpora uno o más tipos de agentes de IA en sistemas de RAG. Por ejemplo, un sistema de RAG agéntica podría combinar varios agentes de recuperación de información, cada uno especializado en un determinado dominio o tipo de fuente de datos. Un agente consulta bases de datos externas mientras que otro puede revisar correos electrónicos y resultados de la web.
Los marcos de IA agéntica, tales como LangChain y LlamaIndex, y el marco de orquestación LangGraph se pueden encontrar en GitHub. Con ellos, es posible experimentar con arquitecturas agénticas para RAG por costos mínimos. Si utilizan modelos de código abierto, como Granite o Llama-3, los diseñadores de sistemas de RAG también pueden aminorar las tarifas que exigen otros proveedores como OpenAI mientras disfrutan de una mayor observabilidad.
Los sistemas de RAG agéntica pueden contener uno o más tipos de agentes de IA, tales como:
Agentes de enrutamiento
Agentes de planificación de consultas
Agentes ReAct
Agentes de planificación y ejecución
Los agentes de enrutamiento determinan qué fuentes y herramientas de conocimiento externas se utilizan para atender la consulta de un usuario. Procesan las instrucciones de los usuarios e identifican el pipeline de RAG con mayor probabilidad de generar una respuesta óptima. En un sistema de RAG de agente único, un agente de enrutamiento elige qué fuente de datos consultar.
Los agentes de planificación de consultas son los administradores de tareas del pipeline de la RAG. Procesan consultas complejas de los usuarios para dividirlas en procesos paso a paso. Envían las subconsultas resultantes a los otros agentes del sistema de RAG y luego combinan las respuestas para obtener una respuesta general cohesiva. El proceso de utilizar un agente para gestionar otros modelos de IA es un tipo de orquestación de IA.
ReAct (razonamiento y acción) es un marco de agentes que crea sistemas multiagente que pueden crear soluciones paso a paso y luego llevarlas a cabo. También pueden identificar herramientas útiles pertinentes. Con base en los resultados de cada paso, los agentes ReAct pueden ajustar dinámicamente las etapas posteriores del flujo de trabajo generado.
Los marcos de agentes de planificación y ejecución son una progresión de los agentes ReAct. Pueden ejecutar flujos de trabajo de varios pasos sin llamar de nuevo al agente principal, reduciendo así los costos y aumentando la eficiencia. Y dado que el agente de planificación debe razonar todos los pasos necesarios para una tarea, las tasas de finalización y la calidad tienden a ser más altas.
Si bien la RAG agéntica puede funcionar para cualquier aplicación de RAG tradicional, la mayor demanda computacional la hace más apropiada para situaciones que requieren consultar múltiples fuentes de datos. Las aplicaciones de la RAG agéntica incluyen:
Respuesta a preguntas en tiempo real: las empresas pueden desplegar chatbots impulsados por RAG y preguntas frecuentes para proporcionar a empleados y clientes información actualizada y precisa.
Asistencia automatizada: las empresas que deseen agilizar los servicios de soporte técnico pueden emplear sistemas de RAG automatizados para ocuparse de consultas más sencillas de los clientes. El sistema de RAG agéntica puede canalizar solicitudes de soporte más exigentes a personal humano.
Gestión de datos: los sistemas de RAG facilitan la búsqueda de información dentro de los almacenes de datos de propiedad exclusiva. Los empleados pueden obtener rápidamente la información que necesitan sin tener que revisar las bases de datos ellos mismos.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio reducido.
Dirigida por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a obtener los conocimientos necesarios para priorizar las inversiones en IA que pueden impulsar el crecimiento.
¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.