什么是多智能体协作?

作者

Shalini Harkar

Lead AI Advocate

大型语言模型 (LLM) 到人工智能智能体(AI 智能体) 集成的演变改变了人工智能 (AI) 的格局。现在,多智能体系统 (MAS) 正在引领新一波 AI 原生产品和软件开发服务浪潮。 

生成式 AI 支持的传统 LLM 应用程序主要侧重于提高生产力、回答问题或总结信息。但随着智能体 和 AI 智能体通信功能的引入,我们能够创建自主的工作流,从而显着减少研究、支持、分析和运营中涉及的手动工作。 现在,多智能体系统可以处理客户服务分流、财务分析、技术故障排除和合规性监控等复杂的现实世界任务,并且已经变得可扩展、自主且可以持续改进。

什么是多智能体协作?

分布式系统中,多个具有本地知识和决策能力的独立智能体之间的协同行动被称为多智能体协作

在多智能体协作中,智能体通过使用已建立的通信协议交换状态信息、分配职责并协调行动来实现协作。合作通常包括工作分解、资源分配、冲突解决和合作规划等方法。它既可以通过显式的消息传递实现,也可以通过修改共享环境的方式隐式实现。这些系统在设计时优先考虑可扩展性、容错性和自发协作行为,以实现无需集中控制的运行。让我们打一个比方:假设有一队无人机正在灾难现场搜寻幸存者或信息。每架无人机都有自己的航线,避开其他无人机,报告发现的情况,并在出现意外情况时改变方向。 将这种情况想象成多智能体协作:每架无人机既可以单独行动,也可以集体行动,在某种意义上就像一个助手。在没有单一领导者统筹的情况下,它们仍能协同工作、彼此协调并共享各自获取的信息。这种方法是自主智能体车队协作、智能和快速地解决复杂问题的方式。

这种协作架构正在重新定义产品架构,催生了各种几乎随时运行的用例,可以适应不断增长的需求,并在无需人工干预的情况下持续学习和优化。自动化过程由具有自适应功能的专门智能体实现,旨在精确、自主地处理特定任务。专门的 AI 智能体实时协作,在聊天机器人 (通过使用 rag 框架)中提供智能、定制和端到端服务,这是一种新型的多智能体应用程序。1

为什么智能体需要合作?

在设计和部署智能系统时,多个智能体之间的协作是一项重要要求,尤其是在高度复杂、分布式且具有隐私限制的环境中。 与其他智能体架构类型(特别是单智能体系统)相比,多智能体协作提供了许多架构、计算和运营方面的优势。在复杂、分布式且实时的系统中,这一情况尤为突出,因为其中天然存在多种截然不同的隐私层级。多智能体系统 (MAS) 使分散的自主智能体能够协同工作,以实现共同或相互依赖的目标,有助于克服受限单智能体系统的一些结构限制。例如,单体式、单一组件的系统只能有限度地扩展,且在延迟和功能通用性上存在局限。每个智能体都保持一定程度的自主性,完成本地计算,通过使用通信协议与其他智能体合作,分享有关其环境的部分知识,进行决策并协调分布式控制战略。保持模块化可扩展性的能力允许无缝集成新的智能体或子系统,同时在动态环境中实时提供自适应行为。例如,在智能医疗系统中,部分或全部智能体可能承担特定领域的任务,例如监测生理信号、识别异常、推荐治疗方案以及根据政策规定管理患者可识别数据。它们之间的协作还实现了整个过程中的连续性、准确性和容错性。通过在智能体之间共享参数化实现计算归一化,可提升计算效率,并摆脱对集中式计算的依赖。2

多智能体如何协作?

为了理解多智能体系统的工作原理,让我们将合作过程分解为一系列协调良好的步骤,每个步骤都强调独立个体如何互动、分配和合作以完成具有挑战性的任务。

智能体通过结构化渠道进行协作和协调,其中每个智能体都是一个具有五个关键要素的智能组件。

a. 基础模型(𝑚):此要素是智能体的主要推理引擎,允许生成和理解自然语言。

b. 目标(o):智能体的目标或任务由目标 (𝑜) 所定义。

c. 环境(𝑒 ):该要素表示智能体所处的环境状况。这可能涉及其他智能体、工具、共享记忆或应用程序编程接口(API)

d. 智能体从其周围环境或从其他智能体接收到的信息称为输入感知(𝑥 )。

e. 输出或行为(𝑦 ):智能体在当前目标和推理路径下所采取的行动或反应。

当 多个AI 智能体 作为 一个团队 合作 完成 一项任务时, 就会 发生 协作。在协作阶段,系统从用户或环境接收任务。系统决定需要哪些智能体以及它们将扮演什么角色

 该系统 将 复杂问题 划分为 可管理 的部分。这是由规划器或具有推理能力的语言模型 实现的 。通信通过共享记忆或中间输出进行。智能体可同时、按顺序或动态地执行分配的任务。

 各 智能体 的 结果 汇集 在 一起 , 形成 重要 的响应。 编排器 或 最终 智能体 启动 操作 或 向 用户 提 完整 的响应 。 3

了解多智能体协作如何运作的流程图 图 1 展示了一个了解多智能体协作如何运作的综合框架。该框架描述了表征智能体之间协作机制的关键维度。

各种协作策略

智能体通过使用各种策略与其他智能体进行协作,这些策略决定了它们如何互动、协调并为共同目标做出贡献。各种协作策略包括:

-  基于规则的协作

在这种协作类型中, 智能体之间的交互受到一组特定的规则或指南的严格控制。这些规则规定了智能体如何以可预测的方式行事、通信和做出选择。学习或调整的范围有限,因为智能体会根据特定条件或输入坚持既定政策。该方法通常使用 if-then 语句、状态机或基于逻辑的框架来执行。这种协作最适合高度结构化或可预测的任务,其中保持一致性是关键。

优点和缺点: 这种方法效率高、公平性好,但适应性和可扩展性较差,尤其是在快速变化或复杂的情况下。

- 基于角色的协作:

在这种方法中,智能体被赋予与清晰的组织或通信框架一致的特定角色或职责。每个角色都有自己的一套功能、权限和目标,这些通常与整个系统目标的各个部分相关联。虽然智能体在指定的角色中半独立工作,但它们也通过相互协调和共享信息在更大的范围内发挥作用。这个概念的灵感来自人类团队动态,其中个人扮演着不同的角色,例如领导者、观察者或执行者。这种方法特别有利于分解任务、设计模块化系统以及允许具有不同专业知识的智能体有效协作。

优点和缺点: 支持模块化、专家驱动的协作,但可能面临灵活性和对整合依赖的挑战。

-  基于模型的协作:

在这种类型的协作中,智能体创建内部模型来了解自己的状态、周围的环境、其他智能体以及它们共同努力实现的目标。这些模型通常是概率性的或基于学习的,这有助于智能体在不确定的情况下规划其行动。它们的互动依赖于更新信念、做出推断和预测结果,这使得它们的策略具有灵活性,并能意识到背景情况。它们使用的一些常用方法包括贝叶斯推理、马尔可夫决策过程 (MDP) 和各种机器学习模型。在智能体需要考虑未知因素、适应变化或在不完全可见的情况下协同工作时,这种方法尤其有用。

优点和缺点: 这种方法提供了极大的灵活性和可靠的决策能力,但也带来了相当程度的复杂性和高昂的计算成本。4

框架

目前正在开发几种著名的框架,每种框架都采用各自不同的方法,帮助智能体在实际应用中有效地协同工作。让我们深入了解一下常用的框架:

1. IBM Bee 智能体框架: 这是一个开源应用程序,用于构建和管理可扩展的多智能体流程。该框架为多个 AI 智能体通过使用 IBM Granite、gpt-4 和 Llama 3 等大型 LLM 完成挑战性任务的应用程序奠定了基础。该框架具有用于智能体、工具、记忆管理和监控的现成组件,采用模块化设计。序列化智能体状态是其最显著的特征之一。此功能可实现复杂流程的暂停与恢复,且不会丢失任何数据。它强调生产级控制、可扩展性和模块化,可以为广泛的应用程序创建复杂的多智能体系统,并计划进一步推进多智能体编排。

2. LangChain 智能体:  LangChain 是一个强大的框架,用于构建语言模型驱动的应用程序,强调基于智能体的强大架构。此选项意味着智能体可以感知其环境,并使用许多可用的工具来收集信息、解释和行动。在 LangChain 内部,开发人员可以访问许多工具和整合,以便更轻松地设计智能体来执行复杂的推理、动态决策和任务完成。LangChain 允许开发人员在开发智能系统时利用大语言模型 (LLM) 的最高能力来完成复杂的任务,例如上下文问答、多步工作流和自然语言生成。

3. OpenAI Swarm 框架:该架构提出了一种通过协调多个智能体的任务流程和任务交接来实现多智能体协同的新方法。每个智能体可视为一个配备专属工具并按定制指令协作的专门单元,而不是作为单个智能体独立行动。将现有任务或对话从一名智能体无缝转交给另一名智能体,让用户始终由最擅长该环节的智能体服务,体验流畅。这种方法最终提高了整个系统的整体效率、模块化程度和响应能力。Swarm 一词强调的是轻量级协调和有效执行任务,这使它能够在实际任务中进行更大规模的部署。5

企业解决方案

Watsonx Orchestrate

Watsonx Orchestrate 通过一整套相互连接的组件协同编排 AI 工作流,使多智能体协作变得轻而易举。Skills 是执行特定任务(如发送电子邮件或查询数据)的独立智能体;它们在概述其能力和元数据的技能注册表中进行描述和注册。当用户提交请求时,意图解析器使用自然语言处理 (NLP)来读取用户的输入并将其与技能相关联。

Flow Orchestrator 提供执行逻辑和流程,包括任务排序、分支、错误和重试,以帮助确保智能体按要求的顺序执行,并且失败的步骤可以重试。流程协调器允许智能体在必要时同时执行。Shared Context and Memory Store 提供了一个公共空间来存储数据、中间输出和决策,从而使智能体能够相互了解并在工作流中保持连续性。LLM 助理使用大型语言模型来帮助推理、浏览不断变化的环境并在协作过程中填补知识空白。 

如果用户愿意参与,Human Interface 可以让用户查看流程并管理工作流。这些组件可支持多智能体协作,帮助确保 watsonx Orchestrate 能够独立管理复杂的多智能体工作流,同时允许人工参与控制。6

未来预测

新兴集体智能: 随着自主智能体通过定义明确的框架护栏协同工作,以帮助确保一致性、安全性和任务相关性,智能行为就开始出现,这将超越任何单个智能体的个人能力。准确性、相关性、效率、可解释性和整个系统的一致性是一些多方面的指标,可用于持续评估和提高这些系统的效能。

集体智能使这些系统能够使用分布式推理和任务分解来解决复杂和多维问题,从而实现工作流的自动化、决策编排

相关解决方案
IBM AI 智能体开发

借助 IBM watsonx.ai 开发平台,让开发人员能够构建、部署和监控 AI 代理。

深入了解 watsonx.ai
IBM AI 智能体和助手

借助在业界首屈一指的全面功能,帮助企业构建、定制和管理 AI 智能体和助手,从而在提高生产力方面取得突破性进展。

深入了解 AI 智能体
IBM Granite

借助专为提高开发人员效率而设计的 Granite 小型开放式模型,可实现 90% 以上的成本节约。这些企业就绪型模型可根据安全基准提供卓越的性能,且适用于多种企业任务,包括网络安全、RAG 等。

深入了解 Granite
采取后续步骤

借助在业界首屈一指的全面功能,帮助企业构建、定制和管理 AI 智能体和助手,从而实现复杂工作流自动化并在提高生产力方面取得突破性进展。

深入了解 watsonx.ai 智能体开发 探索 watsonx Orchestrate
脚注

1 Tran, K.-T., Dao, D., Nguyen, M.-D et.al (2025 January 10). Multi-Agent Collaboration Mechanisms: A Survey of LLMs. arXiv. https://arxiv.org/abs/2501.06322

2 Han, S., Zhang, Q., Yao, Y., Jin, W., & Xu, Z. (2024). LLM Multi-Agent Systems: Challenges and Open Problems. arXiv. https://arxiv.org/abs/2402.03578

3 Jennings, N. R., & Wooldridge, M. (1996). Intelligent agents: Theory and practice. The Knowledge Engineering Review, 10(2), 115–152. https://www.cambridge.org/core/journals/knowledge-engineering-review/article/abs/intelligent-agents-theory-and-practice/CF2A6AAEEA1DBD486EF019F6217F1597

4  Wang, Jialin, and Zhihua Duan, “Agent AI with LangGraph: A Modular Framework for Enhancing Machine Translation Using Large Language Models.” CoRR, abs/2412.03801, December 5, 2024. arXiv:2412.03801 

5 Framework for evaluating LLM-based agents, https://github.com/vladfeigin/llm-agents-evaluation

6 Gomez-Sanz, J. J., & Pavón, J. (2004). Methodologies for developing multi-agent systems. Journal of Universal Computer Science, 10(4), 404–426.