什么是 ReWOO?

作者

David Zax

Staff Writer

IBM Think

ReWOO(“无观察推理” 的缩写)是一种推理框架,可让大型语言模型 (LLM) 在某些复杂的推理应用程序中更具成本效益和准确性。采用ReWOO的模型在尝试解决问题之前,会先围绕问题进行推理过程,从而在工具失效时也能实现更高的效率、准确性和健性。

早期的 LLM(如 OpenAI 的 GPT-1 和 GPT-2 模型)直接提供答案;随后于 2022 年首次亮相的思维链模型增加了一个外化推理的元素,模型在得出答案的过程中基本上是在"大声思考",从而提高了准确性和可解释性。 

接下来出现的是增强语言模型(“ALM 系统”)和 AI 智能体,它们在这种推理的基础上增加了工具调用能力。早期的 ALM 框架(如ReAct)采用“思考-行动-观察”模式,系统在再次开始思考之前会观察自己生成的内容。虽然ReAct这类框架通常有效,但它们可能消耗大量令牌,因为每个后续的工具调用都必须包含之前所有的对话历史——每个步骤都会增加成本。 

ReWOO 通过将推理与外部观察分离,允许模型在有选择地调用工具或检索信息之前在内部规划其推理链,从而摆脱了“思考-行动-观察”模式。这种分离减少了不必要的来回交互,并允许模型在整个任务中保持一个计划。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

ReWOO 的工作原理

ReWOO 采用三个不同的模块,分工协作完成复杂的任务。首先,规划器模块根据用户的提示,为模型的行为制定蓝图。其次,工作器模块执行计划,调用外部工具(无需像 ReAct 那样为“思考”重复成本高昂的 LLM API 调用)。最后,求解器模块接收计划和证据,综合形成最终响应。 

尽管方法上的差异可能看似微小,但结果却非常显著:在某些基准测试中,ReWoo 的表现与 React 一样好(或略好),而使用的令牌数却减少了约 80%。(令牌是 AI 模型的语义单位;令牌越多,运营成本越高。)例如,在 HotpotQA 数据集 (用于评估 AI 系统的一系列问题)上,ReWOO 使用 2,000 个令牌实现了 42.4% 的准确度,而 ReAct 使用 10,000 个令牌实现了 40.8% 的准确度。 

至关重要的是,这种令牌效率的优化使得推理模型在大规模应用时经济上可行。

ReAct 与 ReWOO:一个真实世界的例子

为了说明这两种常见的生成式 AI 框架之间的区别,我们来看一个具体用例。考虑用户查询“帮助我打包行李,明天要坐飞机从纽约到芝加哥,一天后要开车前往密尔沃基”,ReAct 系统和 ReWOO 系统处理此查询的方式有何不同。

ReAct 系统会将问题分解为“思考-行动-观察”三个循环,然后给出最终答案。在第一个周期,它会思考“我需要查询明天纽约的天气”,使用检索增强生成搜索天气(行动),最后观察结果。该结果然后作为输入,进入另一个三步“思考-行动-观察”周期,查询芝加哥的天气。在第三个周期,它将对密尔沃基的天气起执行同样的操作。最后,它将调查结果整理成输出(例如“打包保暖衣物,因为每个地方都会更冷”)。 

ReACT 示意图

相比之下,一个 ReWOO 风格的系统通过预先完成所有规划来提高效率:首先,它会进行规划,“我需要了解明天纽约的天气、明天芝加哥的天气、以及后天密尔沃基的天气。”接下来,它将以一个紧凑的顺序(或可能并行)调用天气 API,而无需在这一工作步骤中进行任何成本高昂的“思考”。最后,它进行求解,整理证据并输出最终答案。  

ReWOO 示意图
AI 智能体

5 种类型的 AI 智能体:自主功能与现实世界的应用

了解目标驱动和基于效用的 AI 如何适应工作流和复杂环境。

ReWOO 的优点和缺点

除了令牌效率之外,ReWOO 还展示了另一个优点:在工具故障下的稳健性。例如,如果在 ReAct 下某个工具出现故障,系统可能会陷入无限循环(例如,因为 LLM 会重复在损坏的数据库中查询芝加哥天气)。

ReWOO 更加灵活。即使工具未能返回给定的证据,最初的总体计划仍然存在:工作器模块可以继续推进,求解器模块至少能够提供部分答案。在天气例子中,求解器模块不会陷入无限或过度的循环去查询芝加哥的天气,而是至少会返回一个告知用户纽约和密尔沃基天气的答案(假设工作器模块能够检索到这些证据),这可能最终对用户的规划需求提供足够的帮助。 

尽管 ReWOO 有诸多优点,但它并非普遍优越的框架;它只是更适用于某些类型的任务,特别是在所需证据的类型和数量是规律且可预测的情况下。然而,ReWOO 的不足之处在于,对于不太可预测或结构化的问题,可能需要创造性、探索或即兴发挥。对于已知的未知因素,ReWOO 表现非常出色,但对于未知的未知因素,它就力不从心了。

例如,ReWOO 对于调试 Python 代码来说并非最优选择,因为这是一个探索性和迭代性的过程,每个修复都可能产生新的错误和线索,精心制定的计划可能很快变得过时。像 ReAct 这样适应性更强的框架,尽管在抽象意义上令牌效率较低,但最终更适合此类问题。 

如何实施 ReWOO

与大多数 AI 系统和框架一样,ReWOO 工作流的实施有多种方法。该框架由研究人员 Binfeng Xu 及其同事于 2023 年首次提出,其“官方”实现可通过 Github 获取。像 LangGraph(它将其模块称为“节点”)和相关的 LangChain 等生成式 AI 框架也很受欢迎。还可以使用 IBM 的 Granite 实现 ReWOO 风格的多步推理方法。

在任何 LLM 环境中,都可以在概念层面开始使用 ReWOO,只需精心设计提示词,鼓励 AI 在进展到任何工具输入之前,制定一个分步计划来回答后续问题。 

例如,首次描述 ReWOO 的论文包含了示例提示词,其中一个开头是:“对于以下任务,制定可以逐步解决问题的计划。对于每个计划,指明使用哪个外部工具以及工具输入来检索证据。”不过,研究作者补充道:“ReWOO 是一种通用范式,提示不一定是固定的。我们鼓励读者和用户根据自己的需求调整提示。” 1

相关解决方案
商用 AI 智能体

构建、部署和管理强大的 AI 助手和智能体,运用生成式 AI 实现工作流和流程自动化。

    探索 watsonx Orchestrate
    IBM AI 智能体解决方案

    借助值得信赖的 AI 解决方案,您可以勾勒未来业务发展蓝图。

    深入了解 AI 智能体解决方案
    IBM Consulting AI 服务

    IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。

    探索人工智能服务
    采取下一步行动

    无论您是选择定制预构建的应用程序和技能,还是使用 AI 开发平台构建和部署定制代理服务,IBM watsonx 平台都能满足您的需求。

    探索 watsonx Orchestrate 深入了解 watsonx.ai
    脚注

    1. "ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models," Binfeng Xu, Zhiyuan Peng, Bowen Lei, Subhabrata Mukherjee, Yuchen Liu, Dongkuan Xu. Arxiv.org, 23 May 2023.