¿Qué es la colaboración multiagente?

Autor

Shalini Harkar

Lead AI Advocate

La evolución de los grandes modelos de lenguaje (LLM) a la integración de agentes inteligentes artificiales (agente de IA) cambió el panorama de la inteligencia artificial (IA). Ahora, los sistemas multiagente (MAS) están dando paso a una nueva ola de productos nativos de IA y servicios de desarrollo de software.  

Las aplicaciones tradicionales de LLM impulsadas por IA generativa se centraban principalmente en aumentar la productividad, responder preguntas o resumir información. Pero con la introducción de agentes y la capacidad comunicación de agente de IA, obtuvimos el poder de crear flujos de trabajo autónomos que redujeron significativamente el trabajo manual involucrado en la investigación, el soporte, el análisis y las operaciones. Ahora, lossistemas multiagente gestionan tareas complejas del mundo real, como la clasificación del servicio de atención al cliente, el análisis financiero, la resolución de problemas técnicos y la supervisión del cumplimiento, y se han vuelto escalables, autónomos y continuamente mejorables.

¿Qué es la colaboración multiagente?

Las acciones coordinadas de varios agentes independientes en un sistema distribuido, cada uno con conocimientos locales y capacidades de toma de decisiones, se denominan colaboración multiagente.

En la colaboración multiagente, los agentes cooperan utilizando protocolos de comunicación establecidos para intercambiar información de estado, asignar responsabilidades y coordinar acciones. La cooperación suele incluir métodos para descomposición del trabajo, distribución de recursos, resolución de conflictos y planificación cooperativa. Puede ser explícita a través del paso de mensajes o implícita a través de modificaciones en el entorno compartido. Estos sistemas priorizan la escalabilidad, la tolerancia a fallos y el comportamiento cooperativo emergente en su diseño para operar sin control centralizado. Consideremos una analogía: supongamos que una flota de drones busca supervivientes o información en el lugar de un desastre. Cada dron sigue su propio camino, evita a otros drones, informa de lo que encuentra y cambia de dirección en caso de suceso inesperado. Piense en este escenario como una colaboración multiagente: cada dron opera solo y colectivamente, en cierto sentido como un asistente. Sin un único líder que los gestione, trabajan juntos, se coordinan entre sí y comparten lo que ven. Este enfoque es la manera en que una flota autónoma de agentes trabaja de forma colaborativa, inteligente y rápida para resolver problemas complejos.

Esta arquitectura colaborativa está redefiniendo la arquitectura de los productos, dando lugar a diversos casos de uso que se ejecutan casi en cualquier momento, se adaptan a las crecientes demandas y aprenden y optimizan continuamente sin intervención manual. El proceso de automatización agéntica está habilitado por agentes especializados con capacidades adaptativas diseñadas para manejar tareas específicas con precisión y autonomía. Los agentes de IA especializados trabajan juntos en tiempo real para proporcionar servicios inteligentes, personalizados y de extremo a extremo en chatbots (mediante el marco rag), un nuevo tipo de aplicación multiagente.1

¿Por qué los agentes necesitan colaborar?

La cooperación entre múltiples agentes es un requisito importante a la hora de diseñar e implementar un sistema inteligente, especialmente en entornos muy complejos, distribuidos y con restricciones de privacidad. La colaboración multiagente proporciona numerosos beneficios arquitectónicos, computacionales y operativos en comparación con otros tipos de arquitecturas agénticas, específicamente un sistema de agente único. Esto es especialmente cierto en sistemas complejos, distribuidos y en tiempo real en los que son inherentes múltiples niveles distintos de privacidad. Los sistemas multiagente (MAS) permiten a los agentes descentralizados y autónomos trabajar juntos para lograr objetivos colectivos o interdependientes, lo que ayuda a superar algunas de las limitaciones estructurales de los sistemas restringidos de un solo agente. Por ejemplo, sistemas monolíticos de un único agente que solo se escalan hasta un grado limitado o tienen límites en la latencia y la generalidad funcional. Cada agente mantiene un nivel de autonomía, completando cálculos locales, cooperando con otros agentes mediante protocolos de comunicación para compartir conocimientos parciales sobre su entorno, colaborar en la toma de decisiones y coordinar una estrategia de control distribuido.  La capacidad de mantener la escalabilidad modular permite una integración perfecta de nuevos agentes o subsistemas al tiempo que proporciona un comportamiento adaptativo en entornos dinámicos en tiempo real.  Por ejemplo, en un sistema sanitario inteligente, un subconjunto o todos los agentes pueden tener asignaciones específicas de dominio; como la monitorización de señales fisiológicas, la identificación de anomalías, la recomendación de terapias y la gestión de datos identificables de los pacientes de acuerdo con la política.  Su cooperación también permite la continuidad, la precisión y la tolerancia a fallos a lo largo de todo el proceso.  La capacidad de normalizar los cálculos entre agentes aumenta la eficiencia computacional al compartir la parametrización entre agentes y evita la dependencia de cálculos centralizados.2

¿Cómo colaboran los agentes múltiples?

Para comprender cómo funcionan los sistemas multiagente, analicemos el proceso cooperativo en una secuencia de pasos bien coordinados, cada uno de los cuales hace hincapié en cómo las personas independientes interactúan, asignan y trabajan juntas para realizar tareas desafiantes.

Los agentes colaboran y se coordinan a través de canales estructurados en los que cada uno de ellos es un componente inteligente con cinco elementos clave.

a. El modelo fundacional (𝑚): este elemento es el principal motor de razonamiento del agente, lo que permite la generación y comprensión del lenguaje natural.

b. Objetivo (o): el objetivo (𝑜) define la meta o tarea del agente en la que se centran.

c. Entorno (𝑒): este elemento indica la situación en la que funciona el agente. Esto podría implicar a otros agentes, herramientas, memoria compartida o interfaces de programación de aplicaciones (API).

d. La información que un agente recibe de su entorno o de otros agentes se conoce como percepción de entrada (𝑥).

e. Output o acción (𝑦): la conducta o respuesta del agente a la luz de su objetivo actual y línea de razonamiento.

La colaboración se produce cuando varios agentes de IA cooperan como equipo para realizar una tarea. Durante la fase de colaboración, el sistema recibe una tarea del usuario o del entorno. El sistema decide qué agentes son necesarios y qué funciones desempeñarán.

El sistema divide los problemas complejos en partes manejables. Esto lo consigue un planificador o el modelo lingüístico con capacidad de razonamiento. La comunicación se produce a través de la memoria compartida o de outputs intermedios. Las tareas asignadas las llevan a cabo los agentes de manera simultánea, secuencial o dinámica.

Los resultados de varios agentes se compilan para crear una respuesta significativa. El orquestador o agente final inicia una acción o da al usuario la respuesta completa.3

Diagrama de flujo para comprender cómo funciona la colaboración multiagente La figura 1 ilustra un marco integral para comprender cómo funciona la colaboración multiagente. Este marco delimita las dimensiones clave que caracterizan los mecanismos de colaboración entre agentes.

Varias estrategias de colaboración

Los agentes colaboran con otros agentes utilizando diversas estrategias que determinan cómo interactuarán, se coordinarán y contribuirán a los objetivos compartidos. Varias estrategias de colaboración incluyen:

- Colaboración basada en reglas:

En este tipo de colaboración, las interacciones de los agentes entre sí están estrechamente controladas por un conjunto específico de reglas o directrices. Estas reglas dictan cómo actúan, se comunican y toman decisiones los agentes de forma predecible. El alcance del aprendizaje o la adaptación es limitado, ya que los agentes se adhieren a una política establecida basada en ciertas condiciones o entradas. Este método suele llevarse a cabo utilizando sentencias si-entonces, máquinas de estado o marcos basados en lógica. Esta colaboración funciona mejor para tareas altamente estructuradas o predecibles, donde mantener la coherencia es clave.

Pros y contras: este enfoque ofrece una gran eficiencia y equidad, pero tiene problemas de adaptabilidad y escalabilidad, especialmente en situaciones complejas o que cambian rápidamente.

- Colaboración basada en roles:

En este enfoque, a los agentes se les asignan funciones o responsabilidades específicas que se alinean con un marco organizativo o de comunicación claro. Cada rol viene con su propio conjunto de funciones, permisos y objetivos que a menudo están vinculados a varias partes del objetivo general del sistema. Aunque los agentes trabajan de manera semiindependiente dentro de sus funciones designadas, también desempeñan un papel en el panorama general al coordinarse y compartir información entre sí. Este concepto se inspira en la dinámica de los equipos humanos, en la que las personas asumen diferentes roles, como líder, observador o ejecutor. Es particularmente beneficioso para dividir tareas, diseñar sistemas modulares y permitir que agentes con experiencia diversa colaboren de manera efectiva.

Pros y contras: permite una colaboración modular impulsada por expertos, pero puede enfrentarse a retos de flexibilidad y su dependencia de la integración de agentes.

- Colaboración basada en modelos:

En este tipo de colaboración, los agentes crean modelos internos para comprender su propio estado, el entorno que les rodea, otros agentes y el objetivo común por el que trabajan. Estos modelos suelen ser probabilísticos o aprendidos, lo que ayuda a los agentes a planificar sus acciones incluso cuando las cosas son inciertas. Sus interacciones se basan en actualizar creencias, hacer inferencias y predecir resultados, lo que permite que sus estrategias sean flexibles y conscientes del contexto. Algunos métodos comunes que utilizan incluyen el razonamiento bayesiano, los procesos de decisión de Markov (MDP) y varios modelos de machine learning. Este enfoque es especialmente útil en situaciones en las que los agentes necesitan Think en factores desconocidos, adaptarse a los cambios o trabajar juntos sin tener una visibilidad completa.

Pros y contras: este enfoque ofrece una gran flexibilidad y sólidas capacidades de toma de decisiones, pero conlleva un nivel significativo de complejidad y un elevado coste computacional.4

Marcos

Se están desarrollando varios marcos bien conocidos, cada uno utilizando sus propios métodos distintos para ayudar a los agentes a trabajar juntos de manera efectiva en aplicaciones del mundo real. Exploremos los marcos más utilizados:

1. IBM® Bee Agent Framework: es una aplicación de código abierto que facilita el desarrollo y la administración de procesos escalables multiagente. Establece la base para aplicaciones en las que varios agentes de IA colaboran para realizar tareas desafiantes mediante el uso de LLM masivos como IBM® Granite, gpt-4 y Llama 3. Con componentes listos para usar para agentes, herramientas, gestión de memoria y monitorización, el marco cuenta con un diseño modular. La serialización de los estados del agente es una de sus características más notables. Esta capacidad permite detener y reanudar procedimientos complejos sin borrar ningún dato. Su énfasis en el control a nivel de producción, la extensibilidad y la modularidad permite la creación de sofisticados sistemas multiagente para una amplia gama de aplicaciones, con planes para nuevos avances en la orquestación multiagente. 

2. Agentes LangChain: LangChain es un marco sólido para crear aplicaciones basadas en modelos de lenguaje que hacen hincapié en una arquitectura sólida basada en agentes. Esta opción significa que los agentes pueden percibir su entorno y utilizar muchas herramientas disponibles para recopilar información, interpretar y actuar. Dentro de LangChain, los desarrolladores tienen acceso a muchas herramientas e integraciones para facilitar la ingeniería de agentes para llevar a cabo razonamientos complejos, toma de decisiones dinámicas y realización de tareas. LangChain permite al desarrollador aprovechar las capacidades más altas de los modelos de lenguaje de gran tamaño (LLM) en el desarrollo de sistemas inteligentes para realizar tareas sofisticadas como la respuesta a preguntas contextuales, los flujos de trabajo de varios pasos y la generación de lenguaje natural.

3. Marco OpenAI Swarm: esta estructura presenta una nueva forma de coordinar múltiples agentes en términos de rutinas y transferencias. En vez de que un agente actúe de manera independiente, cada uno puede verse como una unidad especializada que trabaja con herramientas e instrucciones personalizadas. La transferencia de una tarea o conversación existente de un agente a otro permite una experiencia de usuario fluida en la que cada uno de ellos está especializado para una función específica. En última instancia, este enfoque aumenta la eficiencia, la modularidad y la capacidad de respuesta del sistema en general. El término Swarm hace hincapié en la coordinación ligera y la ejecución eficaz de una tarea, lo que permite implementarla a mayor escala en tareas del mundo real.5

Soluciones empresariales

Watsonx Orchestrate

Watsonx Orchestrate facilita la colaboración multiagente mediante el uso de una colección de componentes interconectados que trabajan juntos para orquestar flujos de trabajo habilitados para IA. Las habilidades son agentes independientes que ejecutan tareas específicas, como enviar correos electrónicos o consultar datos; se describen y registran en un registro de habilidades que describe sus capacidades y metadatos. Cuando un usuario envía una solicitud, un analizador de intenciones utiliza el procesamiento del lenguaje natural (PLN) para leer la entrada del usuario y relacionarla con las habilidades.

El orquestador de flujos proporciona la lógica y el flujo de ejecución, incluida la secuenciación de tareas, la ramificación, los errores y los reintentos, para ayudar a garantizar que los agentes se ejecuten en el orden requerido y que los pasos fallidos se puedan reintentar. El orquestador de flujos permite que los agentes se ejecuten simultáneamente cuando sea necesario. El almacén de memoria y contexto compartido proporciona un espacio común para almacenar datos, resultados intermedios y decisiones en un solo espacio, lo que permite a los agentes conocerse entre sí y mantener la continuidad durante su flujo de trabajo. El asistente LLM utiliza modelos de lenguaje de gran tamaño para ayudar con el razonamiento, la navegación en un contexto cambiante y llenar las lagunas de conocimiento mientras colabora. 

La interfaz humana permite al usuario ver el flujo y gestionar el flujo de trabajo agéntico si quiere participar. Los componentes pueden admitir la colaboración multiagente para ayudar a garantizar que watsonx Orchestrate pueda gestionar de manera independiente flujos de trabajo complejos y multiagentes al tiempo que permite que un humano esté al tanto.6

Predicciones futuras

Inteligencia colectiva emergente: a medida que los agentes autónomos trabajan juntos a través de un marco de colaboración bien definido con barreras de seguridad para ayudar a garantizar la alineación, la seguridad y la relevancia de la tarea, comienzan a surgir comportamientos inteligentes que superan las capacidades individuales de cualquier agente. La precisión, la relevancia, la eficiencia, la explicabilidad y la coherencia general del sistema son algunas de las métricas multifacéticas que se pueden utilizar para evaluar y mejorar continuamente la eficacia de estos sistemas.

La inteligencia colectiva proporciona a estos sistemas la capacidad de resolver problemas complejos y multidimensionales mediante el razonamiento distribuido y la descomposición de tareas, lo que da como resultado la automatización, la toma de decisiones y la orquestación de flujos de trabajo de varios pasos.

Soluciones relacionadas
Desarrollo de agentes de IA de IBM 

Permita a los desarrolladores crear, implementar y monitorizar agentes de IA con el estudio IBM watsonx.ai.

Explore watsonx.ai
Agentes y asistentes de IA de IBM

Cree una productividad sin precedentes con uno de los conjuntos de capacidades más completos del sector para ayudar a las empresas a crear, personalizar y gestionar agentes y asistentes de IA. 

Explore los agentes de IA
IBM Granite

Ahorre más de un 90 % en costes con los modelos más pequeños y abiertos de Granite, diseñados para la eficiencia de los desarrolladores. Estos modelos listos para uso empresarial ofrecen un rendimiento excepcional frente a los puntos de referencia de seguridad y en una amplia gama de tareas empresariales, desde la ciberseguridad hasta RAG.

Explore Granite
Dé el siguiente paso

Automatice sus flujos de trabajo complejos y cree una productividad revolucionaria con uno de los conjuntos de capacidades más completos del sector para ayudar a las empresas a crear, personalizar y gestionar agentes de IA y asistentes. 

Explore el desarrollo de agentes de watsonx.ai Descubra watsonx Orchestrate
Notas a pie de página

1 Tran, K.-T., Dao, D., Nguyen, M.-D et.al (2025 January 10). Multi-Agent Collaboration Mechanisms: A Survey of LLMs. arXiv. https://arxiv.org/abs/2501.06322

2 Han, S., Zhang, Q., Yao, Y., Jin, W., & Xu, Z. (2024). LLM Multi-Agent Systems: Challenges and Open Problems. arXiv. https://arxiv.org/abs/2402.03578

3 Jennings, N. R., & Wooldridge, M. (1996). Intelligent agents: Theory and practice. The Knowledge Engineering Review, 10(2), 115–152. https://www.cambridge.org/core/journals/knowledge-engineering-review/article/abs/intelligent-agents-theory-and-practice/CF2A6AAEEA1DBD486EF019F6217F1597

4  Wang, Jialin, and Zhihua Duan, “Agent AI with LangGraph: A Modular Framework for Enhancing Machine Translation Using Large Language Models.” CoRR, abs/2412.03801, 5 de diciembre, 2024. arXiv:2412.03801 

5 Framework for evaluating LLM-based agents, https://github.com/vladfeigin/llm-agents-evaluation

6 Gomez-Sanz, J. J., & Pavón, J. (2004). Methodologies for developing multi-agent systems. Journal of Universal Computer Science, 10(4), 404–426.