¿Qué es la colaboración multiagente?

Autor

Shalini Harkar

Lead AI Advocate

La evolución de los grandes modelos de lenguaje (LLM) a la integración de agentes de inteligencia artificial (IA) cambió el escenario de la inteligencia artificial (IA). Ahora, los sistemas de agentes múltiples (MAS) están marcando el comienzo de una nueva ola de productos nativos de IA y servicios de desarrollo de software.  

Las aplicaciones tradicionales de LLM impulsadas por IA generativa (IA gen) se centraron principalmente en aumentar la productividad, responder preguntas o resumir información. Pero con la introducción de agentes y la capacidad de comunicación entre agentes de IA, obtuvimos el poder de crear flujos de trabajo autónomos que reducen significativamente el trabajo manual involucrado en investigación, soporte, análisis y operaciones. Ahora, los sistemas multiagente manejan tareas complejas del mundo real, como el triaje de atención al cliente, el análisis financiero, la resolución de problemas técnicos y el monitoreo del cumplimiento, y se volvieron escalables, autónomos y continuamente mejorables.

¿Qué es la colaboración multiagente?

Las acciones coordinadas de varios agentes independientes en un sistema distribuido, cada uno con conocimiento local y capacidades de toma de decisiones, se conocen como colaboración multiagente.

En la colaboración multiagente, los agentes cooperan mediante protocolos de comunicación establecidos para intercambiar información de estado, asignar responsabilidades y coordinar acciones. La cooperación generalmente incluye métodos para la descomposición del trabajo, la distribución de recursos, la resolución de conflictos y la planeación cooperativa. Puede ser explícito a través del paso de mensajes o implícito a través de modificaciones en el entorno compartido. Estos sistemas priorizan la escalabilidad, la tolerancia a fallas y el comportamiento cooperativo emergente en su diseño para operar sin control centralizado. Consideremos una analogía: supongamos que una flota de drones está buscando sobrevivientes o información en el lugar de un desastre. Cada dron toma su propio camino, evita a otros drones, informa lo que encuentra y cambia de dirección en caso de un evento inesperado. Piense en este escenario como una colaboración multiagente: cada dron opera solo y colectivamente, en cierto sentido como un asistente. Sin un solo líder que los gestione, trabajan juntos, se coordinan entre sí y comparten lo que ven. Este enfoque es la forma en que una flota autónoma de agentes trabaja de forma colaborativa, inteligente y rápida para resolver problemas complejos.

Esta arquitectura colaborativa está redefiniendo la arquitectura del producto, dando lugar a diversos casos de uso que se ejecutan casi en cualquier momento, se adaptan a las crecientes demandas, y aprenden y se optimizan continuamente sin intervención manual. El proceso de automatización agéntica está habilitado por agentes especializados con capacidades adaptativas diseñadas para manejar tareas específicas con precisión y autonomía. Los agentes de IA especializados trabajan juntos en tiempo real para proporcionar servicios inteligentes, personalizados y de extremo a extremo en chatbots (mediante el uso de marcos de RAG), un nuevo tipo de aplicación multiagente.1

¿Por qué los agentes necesitan colaborar?

La cooperación entre múltiples agentes es un requisito importante al diseñar y desplegar un sistema inteligente, especialmente en entornos que son muy complejos, están distribuidos y tienen restricciones de privacidad. La colaboración multiagente proporciona numerosos beneficios arquitectónicos, computacionales y operativos en contraste con otros tipos de arquitectura agéntica, específicamente un sistema de agente único. Esto es particularmente cierto en sistemas complejos, distribuidos y en tiempo real, en los que son inherentes múltiples niveles distintos de privacidad. Los sistemas multiagente (MAS) permiten a los agentes descentralizados y autónomos trabajar juntos para lograr objetivos colectivos o interdependientes, lo que ayuda a superar algunas de las limitaciones estructurales de los sistemas restringidos de agente único. Por ejemplo, los sistemas monolíticos de agente único que solo se amplían hasta cierto punto o tienen límites en la latencia y la generalidad funcional. Cada agente mantiene un nivel de autonomía, completando cálculos locales y cooperando con otros agentes mediante protocolos de comunicación para compartir conocimientos parciales sobre su entorno, colaborar en la toma de decisiones y coordinar una estrategia de control distribuido.  La capacidad de mantener la escalabilidad modular permite una integración perfecta de nuevos agentes o subsistemas, al tiempo que proporciona un comportamiento adaptativo en entornos dinámicos en tiempo real.  Por ejemplo, en un sistema de atención médica inteligente, un subconjunto o todos los agentes pueden tener asignaciones específicas de dominio, como monitorear señales fisiológicas, identificar anomalías, recomendar terapias y gestionar datos identificables de pacientes de acuerdo con la política.  Su cooperación también permite la continuidad, la precisión y la tolerancia a fallas a lo largo de todo el proceso.  La capacidad de normalizar los cálculos entre agentes aumenta la eficiencia computacional al compartir la parametrización entre agentes y evita la dependencia de cálculos centralizados.2

¿Cómo colaboran los agentes múltiples?

Para comprender cómo funcionan los sistemas multiagente, analicemos el proceso cooperativo en una secuencia de pasos bien coordinados, cada uno de los cuales enfatiza cómo las personas independientes interactúan, asignan y trabajan juntas para realizar tareas desafiantes.

Los agentes colaboran y se coordinan a través de canales estructurados donde cada agente es un componente inteligente con cinco elementos clave.

a. El modelo fundacional (𝑚): este elemento es el principal motor de razonamiento del agente, lo que permite la generación y la comprensión del lenguaje natural.

b. Objetivo (o): la meta o tarea del agente en la que se enfoca está definida por el objetivo (𝑜).

c. Entorno (𝑒): este elemento indica la situación en la que funciona el agente. Esto podría implicar otros agentes, herramientas, memoria compartida o interfaces de programación de aplicaciones (API).

d. La información que un agente recibe de su entorno o de otros agentes se conoce como percepción de entrada (𝑥).

e. Resultado o acción (𝑦): la conducta o respuesta del agente a la luz de su objetivo actual y línea de razonamiento.

La colaboración se produce cuando varios agentes de IA cooperan como equipo para realizar una tarea. Durante la fase de colaboración, el sistema recibe una tarea del usuario o del entorno. El sistema decide qué agentes son necesarios y qué roles desempeñarán.

El sistema divide los problemas complejos en partes manejables. Esto se logra mediante un planificador o el modelo de lenguaje con capacidad de razonamiento. La comunicación ocurre a través de la memoria compartida o resultados intermedios. Las tareas asignadas las llevan a cabo los agentes de forma simultánea, secuencial o dinámica.

Los resultados de varios agentes se compilan para crear una respuesta significativa. El orquestador o agente final inicia una acción o le da al usuario la respuesta completa.3

Diagrama de flujo para comprender cómo funciona la colaboración entre múltiples agentes La figura 1 ilustra una infraestructura integral para comprender cómo funciona la colaboración entre múltiples agentes. Esta infraestructura delinea las dimensiones clave que caracterizan los mecanismos de colaboración entre agentes.

Diversas estrategias de colaboración

Los agentes colaboran con otros agentes mediante diversas estrategias que determinan cómo interactuarán, coordinarán y contribuirán a objetivos compartidos. Las diversas estrategias de colaboración incluyen:

- Colaboración basada en reglas:

En este tipo de colaboración, las interacciones de los agentes entre sí están estrictamente controladas por un conjunto específico de reglas o pautas. Estas reglas dictan cómo actúan, se comunican y toman decisiones los agentes de manera predecible. El alcance del aprendizaje o la adaptación es limitado, ya que los agentes se adhieren a una política establecida basada en ciertas condiciones o entradas. Este método a menudo se lleva a cabo utilizando declaraciones tipo "si, entonces", máquinas de estado o infraestructura basada en la lógica. Esta colaboración funciona mejor para tareas altamente estructuradas o predecibles, en las que mantener la coherencia es clave.

Pros y contras: este enfoque ofrece una gran eficiencia y equidad, pero tiene dificultades con la adaptabilidad y la escalabilidad, especialmente en situaciones complejas o que cambian rápidamente.

- Colaboración basada en roles:

En este enfoque, a los agentes se les asignan funciones o responsabilidades específicas que se alinean con una infraestructura organizacional o de comunicación clara. Cada rol viene con su propio conjunto de funciones, permisos y objetivos que a menudo están vinculados a distintas partes del objetivo general del sistema. Si bien los agentes trabajan de forma semiindependiente dentro de sus roles designados, también desempeñan un papel en el panorama general al coordinar y compartir información entre sí. Este concepto se inspira en la dinámica del equipo humano, en el que las personas asumen diferentes roles, como líder, observador o ejecutor. Es particularmente beneficioso para dividir tareas, diseñar sistemas modulares y permitir que agentes con experiencia diversa colaboren de manera eficaz.

Pros y contras: permite una colaboración modular impulsada por expertos, pero podría enfrentar desafíos con la flexibilidad y su dependencia de la integración de agentes.

- Colaboración basada en modelos:

En este tipo de colaboración, los agentes crean modelos internos para comprender su propio estado, el entorno que los rodea, a otros agentes y el objetivo común por el que todos trabajan. Por lo general estos modelos son probabilísticos o aprendidos, lo que ayuda a los agentes a planificar sus acciones incluso cuando las cosas son inciertas. Sus interacciones se basan en actualizar creencias, hacer inferencias y predecir resultados, lo que permite que sus estrategias sean flexibles y conscientes del contexto. Algunos métodos comunes que utilizan incluyen el razonamiento bayesiano, los procesos de decisión de Markov (MDP) y distintos modelos de machine learning. Este enfoque es particularmente útil en situaciones en las que los agentes necesitan pensar en factores desconocidos, adaptarse a los cambios o trabajar juntos sin tener una visibilidad completa.

Pros y contras: este enfoque ofrece una gran flexibilidad y sólidas capacidades de toma de decisiones, pero conlleva un nivel significativo de complejidad y un alto costo computacional.4

Infraestructuras

Se están desarrollando varias infraestructuras conocidas, cada una utilizando sus propios métodos distintivos para ayudar a los agentes a trabajar juntos de manera eficaz en aplicaciones del mundo real. Exploremos los marcos comúnmente utilizados:

1. Marco IBM Bee Agent: es una aplicación de código abierto que facilita el desarrollo y la administración de procesos escalables de múltiples agentes. Establece la base para aplicaciones en las que múltiples agentes de IA colaboran para realizar tareas desafiantes mediante el uso de LLM masivos como IBM® Granite, gpt-4 y Llama 3. Con componentes listos para usar para agentes, herramientas, gestión de memoria y monitoreo, la infraestructura cuenta con un diseño modular. La serialización de los estados del agente es una de sus características más notables. Esta capacidad permite detener y reanudar procedimientos complejos sin borrar ningún dato. Su énfasis en el control, la extensibilidad y la modularidad a nivel de producción permite la creación de sofisticados sistemas multiagente para una amplia gama de aplicaciones, con planes para nuevos avances en la orquestación multiagente. 

2. Agentes LangChain: LangChain es una infraestructura sólida para crear aplicaciones basadas en modelos de lenguaje que enfatizan una arquitectura sólida basada en agentes. Esta opción significa que los agentes pueden percibir su entorno y utilizar muchas herramientas disponibles para recopilar información, interpretar y actuar. Dentro de LangChain, los desarrolladores tienen acceso a muchas herramientas e integraciones para facilitar la ingeniería de agentes a fin de hacer razonamientos complejos, tomar decisiones de manera dinámica y realizar de tareas. LangChain permite al desarrollador aprovechar las capacidades más altas de los modelos de lenguaje de gran tamaño (LLM) en el desarrollo de sistemas inteligentes para realizar tareas sofisticadas, como responder preguntas contextuales, flujos de trabajo de varios pasos y generación de lenguaje natural.

3. Infraestructura OpenAI Swarm: esta estructura presenta una nueva forma de coordinar múltiples agentes en términos de rutinas y transferencias. En lugar de que un agente actúe de forma independiente, cada agente puede verse como una unidad especializada que trabaja con herramientas e instrucciones personalizadas. La transferencia de una tarea o conversación existente de un agente a otro permite una experiencia de usuario fluida en la que cada agente está especializado para una función específica. En última instancia, este enfoque aumenta la eficiencia general, la modularidad y la capacidad de respuesta del sistema en general. El término Swarm (enjambre) enfatiza la coordinación ligera y la ejecución eficaz de una tarea, lo que permite desplegarla a mayor escala en tareas del mundo real.5

Solución empresarial

watsonx Orchestrate

Watsonx Orchestrate® facilita la colaboración entre múltiples agentes mediante el uso de una colección de componentes que trabajan juntos para orquestar flujos de trabajo habilitados para IA. Las habilidades son agentes independientes que ejecutan tareas específicas, como enviar correos electrónicos o consultar datos; se describen y registran en un registro de habilidades que describe sus capacidades y metadatos. Cuando un usuario envía una solicitud, un Intent Parser utiliza el procesamiento de lenguaje natural (PLN) para leer la entrada del usuario y relacionarla con las habilidades.

Flow Orchestrator proporciona la lógica y el flujo de ejecución, incluida la secuenciación de tareas, la bifurcación, los errores y los reintentos para ayudar a garantizar que los agentes se ejecuten en el orden requerido y que los pasos fallidos se puedan reintentar. El orquestador de flujos permite que los agentes se ejecuten simultáneamente cuando sea necesario. El almacenamiento de memoria y el contexto compartido proporcionan un espacio común para almacenar datos, resultados intermedios y decisiones en un solo espacio, lo que permite a los agentes estar al tanto unos de otros y mantener la continuidad durante su flujo de trabajo. El asistente LLM utiliza grandes modelos de lenguaje para ayudar con el razonamiento, navegar en un contexto cambiante y llenar los vacíos de conocimiento mientras se colabora. 

La interfaz humana permite al usuario ver el flujo y gestionar el flujo de trabajo agéntico si quiere participar. Los componentes pueden admitir la colaboración de múltiples agentes para ayudar a garantizar que watsonx Orchestrate pueda gestionar de forma independiente flujos de trabajo complejos de múltiples agentes, al tiempo que permite que un humano esté al tanto.6

Predicciones futuras

Inteligencia colectiva emergente: a medida que los agentes autónomos trabajan juntos a través de una infraestructura de colaboración bien definida con barreras de seguridad para ayudar a garantizar la alineación, la seguridad y la relevancia de la tarea, comienzan a surgir comportamientos inteligentes que superan las capacidades individuales de cualquier agente único. La precisión, la relevancia, la eficiencia, la explicabilidad y la coherencia general del sistema son algunas de las métricas multifacéticas que se pueden utilizar para evaluar y mejorar continuamente la eficacia de estos sistemas.

La inteligencia colectiva brinda a estos sistemas la capacidad de resolver problemas complejos y multidimensionales mediante el uso del razonamiento distribuido y la descomposición de tareas, lo que da como resultado la automatización, la toma de decisiones y la orquestación de flujos de trabajo de varios pasos.

Soluciones relacionadas
Desarrollo de agentes de IA de IBM 

Permita a los desarrolladores crear, desplegar y monitorear agentes de IA con el estudio IBM watsonx.ai.

Explore watsonx.ai
Agentes de IA y asistentes de IBM

Cree una productividad revolucionaria con uno de los conjuntos de capacidades más completos de la industria para ayudar a las empresas a crear, personalizar y gestionar asistentes y agentes de IA. 

Explore los agentes de IA
IBM Granite

Logre un ahorro de más del 90 % en costos de energía con los modelos más pequeños y abiertos de Granite, diseñados para mejorar la eficiencia de los desarrolladores. Estos modelos preparados para empresas ofrecen un rendimiento excepcional contra puntos de referencia de seguridad y en una amplia gama de tareas empresariales, desde la ciberseguridad hasta el RAG.

Explorar Granite
Dé el siguiente paso

Automatice sus complejos flujos de trabajo y cree una productividad revolucionaria con uno de los conjuntos de capacidades más completos de la industria para ayudar a las empresas a crear, personalizar y gestionar agentes y asistentes de IA. 

Explore el desarrollo de agentes de watsonx.ai Descubra watsonx Orchestrate
Notas de pie de página

1 Tran, K.-T., Dao, D., Nguyen, M.-D et.al (10 de enero de 2025). Multi-Agent Collaboration Mechanisms: A Survey of LLMs. arXiv. https:\/\/arxiv.org\/abs\/2501.06322

2 Han, S., Zhang, Q., Yao, Y., Jin, W. y Xu, Z. (2024). LLM Multi-Agent Systems: Challenges and Open Problems. arXiv. https://arxiv.org/abs/2402.03578

3 Jennings, NR, & Wooldridge, M. (1996). Intelligent agents: Theory and practice. The Knowledge Engineering Review, 10(2), 115–152. https://www.cambridge.org/core/journals/knowledge-engineering-review/article/abs/intelligent-agents-theory-and-practice/CF2A6AAEEA1DBD486EF019F6217F1597

4 Wang, Jialin, y Zhihua Duan, “Agent AI with LangGraph: A Modular Framework for Enhancing Machine Translation Using Large Language Models”. CoRR, abs/2412.03801, 5 de diciembre de 2024. arXiv:2412.03801 

5 Framework for evaluating LLM-based agents, https://github.com/vladfeigin/llm-agents-evaluation

6 Gomez-Sanz, JJ, & Pavón, J. (2004). Methodologies for developing multi-agent systems. Journal of Universal Computer Science, 10(4), 404–426.