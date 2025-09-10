早期的 LLM（如 OpenAI 的 GPT-1 和 GPT-2 模型）直接提供答案；随后于 2022 年首次亮相的思维链模型增加了一个外化推理的元素，模型在得出答案的过程中基本上是在"大声思考"，从而提高了准确性和可解释性。
接下来出现的是增强语言模型（“ALM 系统”）和 AI 智能体，它们在这种推理的基础上增加了工具调用能力。早期的 ALM 框架（如ReAct）采用“思考-行动-观察”模式，系统在再次开始思考之前会观察自己生成的内容。虽然ReAct这类框架通常有效，但它们可能消耗大量令牌，因为每个后续的工具调用都必须包含之前所有的对话历史——每个步骤都会增加成本。
ReWOO 通过将推理与外部观察分离，允许模型在有选择地调用工具或检索信息之前在内部规划其推理链，从而摆脱了“思考-行动-观察”模式。这种分离减少了不必要的来回交互，并允许模型在整个任务中保持一个计划。
ReWOO 采用三个不同的模块，分工协作完成复杂的任务。首先，规划器模块根据用户的提示，为模型的行为制定蓝图。其次，工作器模块执行计划，调用外部工具（无需像 ReAct 那样为“思考”重复成本高昂的 LLM API 调用）。最后，求解器模块接收计划和证据，综合形成最终响应。
尽管方法上的差异可能看似微小，但结果却非常显著：在某些基准测试中，ReWoo 的表现与 React 一样好（或略好），而使用的令牌数却减少了约 80%。（令牌是 AI 模型的语义单位；令牌越多，运营成本越高。）例如，在 HotpotQA 数据集 （用于评估 AI 系统的一系列问题）上，ReWOO 使用 2,000 个令牌实现了 42.4% 的准确度，而 ReAct 使用 10,000 个令牌实现了 40.8% 的准确度。
为了说明这两种常见的生成式 AI 框架之间的区别，我们来看一个具体用例。考虑用户查询“帮助我打包行李，明天要坐飞机从纽约到芝加哥，一天后要开车前往密尔沃基”，ReAct 系统和 ReWOO 系统处理此查询的方式有何不同。
ReAct 系统会将问题分解为“思考-行动-观察”三个循环，然后给出最终答案。在第一个周期，它会思考“我需要查询明天纽约的天气”，使用检索增强生成搜索天气（行动），最后观察结果。该结果然后作为输入，进入另一个三步“思考-行动-观察”周期，查询芝加哥的天气。在第三个周期，它将对密尔沃基的天气起执行同样的操作。最后，它将调查结果整理成输出（例如“打包保暖衣物，因为每个地方都会更冷”）。
相比之下，一个 ReWOO 风格的系统通过预先完成所有规划来提高效率：首先，它会进行规划，“我需要了解明天纽约的天气、明天芝加哥的天气、以及后天密尔沃基的天气。”接下来，它将以一个紧凑的顺序（或可能并行）调用天气 API，而无需在这一工作步骤中进行任何成本高昂的“思考”。最后，它进行求解，整理证据并输出最终答案。
除了令牌效率之外，ReWOO 还展示了另一个优点：在工具故障下的稳健性。例如，如果在 ReAct 下某个工具出现故障，系统可能会陷入无限循环（例如，因为 LLM 会重复在损坏的数据库中查询芝加哥天气）。
ReWOO 更加灵活。即使工具未能返回给定的证据，最初的总体计划仍然存在：工作器模块可以继续推进，求解器模块至少能够提供部分答案。在天气例子中，求解器模块不会陷入无限或过度的循环去查询芝加哥的天气，而是至少会返回一个告知用户纽约和密尔沃基天气的答案（假设工作器模块能够检索到这些证据），这可能最终对用户的规划需求提供足够的帮助。
尽管 ReWOO 有诸多优点，但它并非普遍优越的框架；它只是更适用于某些类型的任务，特别是在所需证据的类型和数量是规律且可预测的情况下。然而，ReWOO 的不足之处在于，对于不太可预测或结构化的问题，可能需要创造性、探索或即兴发挥。对于已知的未知因素，ReWOO 表现非常出色，但对于未知的未知因素，它就力不从心了。
例如，ReWOO 对于调试 Python 代码来说并非最优选择，因为这是一个探索性和迭代性的过程，每个修复都可能产生新的错误和线索，精心制定的计划可能很快变得过时。像 ReAct 这样适应性更强的框架，尽管在抽象意义上令牌效率较低，但最终更适合此类问题。
与大多数 AI 系统和框架一样，ReWOO 工作流的实施有多种方法。该框架由研究人员 Binfeng Xu 及其同事于 2023 年首次提出，其“官方”实现可通过 Github 获取。像 LangGraph（它将其模块称为“节点”）和相关的 LangChain 等生成式 AI 框架也很受欢迎。还可以使用 IBM 的 Granite 实现 ReWOO 风格的多步推理方法。
在任何 LLM 环境中，都可以在概念层面开始使用 ReWOO，只需精心设计提示词，鼓励 AI 在进展到任何工具输入之前，制定一个分步计划来回答后续问题。
例如，首次描述 ReWOO 的论文包含了示例提示词，其中一个开头是：“对于以下任务，制定可以逐步解决问题的计划。对于每个计划，指明使用哪个外部工具以及工具输入来检索证据。”不过，研究作者补充道：“ReWOO 是一种通用范式，提示不一定是固定的。我们鼓励读者和用户根据自己的需求调整提示。” 1
1. "ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models," Binfeng Xu, Zhiyuan Peng, Bowen Lei, Subhabrata Mukherjee, Yuchen Liu, Dongkuan Xu. Arxiv.org, 23 May 2023.