Tiempo de lectura
La RAG agentiva es el uso de agentes de IA para facilitar la generación aumentada por recuperación (RAG). Los sistemas de RAG agentiva añaden agentes de IA a la canalización RAG para aumentar la adaptabilidad y la precisión. En comparación con los sistemas RAG tradicional, la RAG agentiva permite que los modelos de lenguaje de gran tamaño (LLM) recuperen información de múltiples fuentes y gestionen flujos de trabajo más complejos.
La generación aumentada por recuperación es una aplicación de inteligencia artificial (IA) que conecta un modelo de IA generativa con una base de conocimientos externa. Los datos de la base de conocimientos aumentan las consultas de los usuarios con más contexto para que el LLM pueda generar respuestas más precisas. La RAG permite que los LLM sean más precisos en contextos específicos de un dominio sin necesidad de ajustes.
En lugar de depender únicamente de los datos de entrenamiento, los modelos de IA habilitados para RAG pueden acceder a los datos actuales en tiempo real a través de API y otras conexiones a fuentes de datos. Una canalización RAG estándar consta de dos modelos de IA:
El componente de recuperación de información, normalmente un modelo de embedding emparejado con una base de datos vectorial que contiene los datos que se van a recuperar.
El componente de IA generativa, normalmente un LLM.
En respuesta a las consultas de los usuarios en lenguaje natural, el modelo de embedding convierte la consulta en una incrustación de vector y, a continuación, recupera datos similares de la base de conocimiento. El sistema de IA combina los datos recuperados con la consulta del usuario para generar una respuesta consciente del contexto.
La IA agentiva es un tipo de IA que puede determinar y llevar a cabo un curso de acción por sí misma. La mayoría de los agentes disponibles en el momento de la publicación son LLM con capacidades de llamada a funciones, lo que significa que pueden llamar a herramientas para realizar tareas. En teoría, los agentes de IA son LLM con tres características importantes:
Tienen memoria, tanto a corto como a largo plazo, lo que les permite planificar y ejecutar tareas complejas. La memoria también permite a los agentes consultar tareas anteriores y utilizar esos datos para informar flujos de trabajo futuros. Los sistemas de RAG agentiva utilizan el almacenamiento en caché semántico para almacenar y hacer referencia a conjuntos anteriores de consultas, contexto y resultados.
Son capaces de enrutar consultas, planificar paso a paso y tomar decisiones. Los agentes utilizan sus capacidades de memoria para retener información y trazar un curso de acción apropiado en respuesta a consultas e instrucciones complejas.
Pueden realizar llamadas a herramientas a través de API. Los agentes más capaces pueden elegir qué herramientas utilizar para el flujo de trabajo que generan en respuesta a las interacciones de los usuarios.
Los flujos de trabajo de agentes pueden constar de un agente de IA o de sistemas multiagente que combinen varios agentes.
La RAG agentiva aporta varias mejoras significativas con respecto a la implementación tradicional de RAG:
Flexibilidad: las aplicaciones de RAG agentiva extraen datos de varias bases de conocimiento externas y permiten el uso de herramientas externas. Los canales RAG estándar conectan un LLM a un único conjunto de datos externo. Por ejemplo, muchos sistemas RAG empresariales combinan un chatbot con una base de conocimientos que contiene datos de la organización.
Adaptabilidad: los sistemas de RAG tradicional son herramientas reactivas de recuperación de datos que encuentran información relevante en respuesta a consultas específicas. El sistema RAG no tiene capacidad para adaptarse a contextos cambiantes o acceder a otros datos. Los resultados óptimos a menudo requieren una extensa prompt engineering.
Mientras tanto, la RAG agentiva es una transición desde una consulta estática basada en reglas a una resolución de problemas inteligente y adaptativa. Los sistemas multiagente animan a varios modelos de IA a colaborar y comprobar el trabajo de los demás.
Precisión: los sistemas de RAG tradicional no validan ni optimizan sus propios resultados. Las personas deben discernir si el sistema está funcionando a un nivel aceptable. El sistema en sí no tiene forma de saber si está encontrando los datos correctos o incorporándolos con éxito para facilitar la generación consciente del contexto. Sin embargo, los agentes de IA pueden iterar sobre procesos anteriores para optimizar los resultados a lo largo del tiempo.
Escalabilidad: gracias a las redes de agentes del RAG que trabajan juntos, acceden a múltiples fuentes de datos externas y utilizan las capacidades de planificación y llamada de herramientas, la RAG agentiva tiene una mayor escalabilidad. Los desarrolladores pueden construir sistemas RAG flexibles y escalables que puedan manejar una amplia gama de consultas de usuarios.
Multimodalidad: los sistemas de RAG agentiva obtienen un beneficio de los recientes avances en LLM multimodales para trabajar con una mayor variedad de tipos de datos, como imágenes y archivos de audio. Los modelos multimodales procesan múltiples tipos de datos estructurados, semiestructurados y no estructurados. Por ejemplo, varios modelos GPT recientes pueden generar contenidos visuales y sonoros además de la generación de texto estándar.
Considere varios empleados trabajando en una oficina. Un sistema de RAG tradicional es el empleado que se desempeña bien cuando se le asignan tareas específicas y se le dice cómo realizarlas. Son reacios a tomar la iniciativa y se sienten incómodos yendo más allá de las instrucciones explícitas.
En comparación, un sistema de RAG agentiva es un equipo proactivo y creativo. También son buenos para seguir instrucciones, pero les encanta tomar la iniciativa y resolver desafíos por su cuenta. No tienen miedo de encontrar sus propias soluciones a tareas complejas que podrían desconcertar o intimidar a sus compañeros de trabajo.
Aunque la RAG agentiva optimiza los resultados con llamadas a funciones, razonamiento de varios pasos y sistemas multiagente, no siempre es la mejor opción. Más agentes trabajando significa mayores gastos, y un sistema RAG con agentes suele requerir pagar más fichas. Aunque las RAG agentivas pueden aumentar la velocidad con respecto a las RAG tradicionales, los LLM también introducen latencia, ya que el modelo puede tardar más tiempo en generar sus resultados.
Por último, los agentes no siempre son fiables. Pueden tener dificultades e incluso no completar las tareas, dependiendo de la complejidad y los agentes utilizados. Los agentes no siempre colaboran sin problemas y pueden competir por los recursos. Cuantos más agentes haya en un sistema, más compleja se vuelve la colaboración, con mayores posibilidades de complicaciones. E incluso el sistema RAG más hermético no puede eliminar por completo el potencial de alucinaciones.
La RAG agentiva funciona incorporando uno o más tipos de agentes de IA en los sistemas RAG. Por ejemplo, un sistema RAG de agencia puede combinar varios agentes de recuperación de información, cada uno especializado en un dominio o tipo de fuente de datos determinado. Un agente consulta bases de datos externas mientras que otro puede revisar los correos electrónicos y los resultados web.
Los marcos de IA agentiva, como LangChain y LlamaIndex, y el marco de orquestación LangGraph se pueden encontrar en GitHub. Con ellos, es posible experimentar con arquitecturas agentivas para RAG a costes mínimos. Si utilizan modelos de código abierto como Granite o Llama-3, los diseñadores de sistemas RAG también pueden mitigar las tarifas exigidas por otros proveedores como OpenAI mientras disfrutan de una mayor observabilidad.
Los sistemas de RAG agentiva pueden contener uno o más tipos de agentes de IA, como:
Agentes de enrutamiento
Agentes de planificación de consultas
Agentes de ReAct
Agentes de planificación y ejecución
Los agentes de enrutamiento determinan qué fuentes de conocimiento y herramientas externas se utilizan para abordar una consulta de usuario. Procesan las instrucciones de los usuarios e identifican la canalización RAG que tiene más probabilidades de dar lugar a una generación de respuestas óptima. En un sistema RAG de un solo agente, un agente de enrutamiento elige el origen de datos que desea consultar.
Los agentes de planificación de consultas son los administradores de tareas de la canalización de RAG. Procesan consultas complejas de los usuarios para dividirlas en procesos paso a paso. Envían las subconsultas resultantes a los demás agentes del sistema RAG y, a continuación, combinan las respuestas para obtener una respuesta general cohesiva. El proceso de usar un agente para administrar otros modelos de IA es un tipo de orquestación de IA.
ReAct (razonamiento y acción) es un marco de agentes que crea sistemas multiagenciales que pueden crear soluciones paso a paso y, a continuación, actuar en función de ellas. También pueden identificar las herramientas adecuadas que pueden ayudar. En función de los resultados de cada paso, los agentes de ReAct pueden ajustar de forma dinámica las siguientes etapas del flujo de trabajo generado.
Los marcos de agentes de planificación y ejecución son una progresión de los agentes ReAct. Pueden ejecutar flujos de trabajo de varios pasos sin volver a llamar al agente principal, lo que reduce los costes y aumenta la eficiencia. Y como el agente de planificación debe razonar a través de todos los pasos necesarios para una tarea, las tasas de finalización y la calidad tienden a ser más altas.
Aunque la RAG agentiva puede adaptarse a cualquier aplicación de RAG tradicional, las mayores demandas de computación la hacen más apropiada para situaciones que requieren consultar múltiples fuentes de datos. Las aplicaciones de RAG agentiva incluyen:
Respuesta a preguntas en tiempo real: las empresas pueden implementar chatbots con tecnología RAG y preguntas frecuentes para proporcionar a los empleados y clientes información actualizada y precisa.
Asistencia automatizada: las empresas que desean optimizar los servicios de atención al cliente pueden utilizar sistemas de RAG automatizada para gestionar consultas de clientes más sencillas. El sistema RAG agentiva puede escalar las solicitudes de soporte más exigentes al personal humano.
Gestión de datos: los sistemas RAG facilitan la búsqueda de información dentro de los almacenes de datos propietarios. Los empleados pueden obtener rápidamente los datos que necesitan sin tener que buscarlos ellos mismos en las bases de datos.
Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.
IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.
Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio reducido.
Dirigido por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a conseguir el conocimiento necesario para priorizar las inversiones en IA que pueden impulsar el crecimiento.
¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.
Profundice en los tres elementos cruciales de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.