Anthropic 的 Claude 3.7 Sonnet 现在可以像电灯开关一样开启或关闭其深度思考模式，能够即时回答简单问题，同时将计算密集型任务留给真正需要的复杂问题。
这种混合推理方法标志着人工智能领域的一个转变，专家们表示这既能降低成本又能提升能力，IBM 的 Granite 模型也根据任务复杂性采用了类似的切换功能。这一演进正值全球各组织努力应对先进 AI 带来的财务现实之际，有望在节省宝贵计算资源的同时，让复杂的推理变得更易于获取。
“思考模型的成本结构很重要；并非所有问题都需要模型停顿 32 秒来思考，”IBM 研究院 AI 产品经理 Maya Murad 在近期一期《混合专家模型》播客节目中提到。“这项功能使企业能够智能地运用资源，仅在问题需要时才进行大量计算，从而创建出更贴近人类处理不同认知任务方式的 AI 系统。”
IBM 研究院高级项目经理 Abraham Daniels 告诉 IBM Think，混合推理标志着 AI 行业焦点从单纯构建更强大的系统转向创建更实用系统的转变。对于企业而言，这一改变可能至关重要，因为运行复杂 AI 的成本已成为主要考量因素。
模型在进行深度推理时，比提供简单响应时要消耗显著更多的计算资源，因此成本也更高。混合推理让企业能够通过将计算级别与任务复杂度相匹配，来优化 AI 支出。
Anthropic 近期推出了具有“扩展思考模式”的 Claude 3.7 Sonnet，允许用户在需要时请求更深入的分析。IBM 同样为其 Granite 模型配备了“切换”功能，让用户能够控制何时启用密集推理。
“我们构建混合推理时所秉持的理念，与市面上其他推理模型有所不同，”一位 Anthropic 发言人对 IBM Think 表示。“我们的方法基于人脑的工作方式。作为人类，我们并非拥有两个独立的大脑来分别处理快速思考和深度思考——在 Anthropic，我们认为推理需要深度集成到我们所有模型的能力中，而非作为一个独立功能。这一理念基于我们对 Claude 如何与客户在所有应用中集成的理解。虽然某些交互需要快速响应，例如头脑风暴营销素材，但其他场景，如复杂的财务分析或行业研究，则需要更深入、更长时间的思考。我们希望能让客户尽可能简单且经济高效地获取和使用这两项功能。”
这种方法使得 AI 的思考过程变得更加透明。“模型本身仍然是一个黑箱，但至少在输出端，你可以大致看到模型是如何得出该结论的，”Daniels 说。他表示，这种可见性可以改善结果并应对可解释性问题，这对受监管的行业尤为重要。
Daniels 和其他专家认为，这一发展旨在满足实际需求：为简单直接的问题消除不必要的计算开销。
“并非所有任务都需要大量的推理，它本质上赋予了你一种能力，即当处理更复杂的事情时，你可以付出更多——无论是延迟还是成本方面，”IBM 研究院技术产品管理总监 Kate Soule 在播客中说道。
大型语言模型 (LLM) 的内部运作传统上是不透明的。模型接收提示词并生成响应，而不会揭示其内部的推理步骤。
混合推理通过展示模型的逐步思考过程改变了这一动态。当被激活时，像 Granite 3.2 这样的系统会展示其工作过程，使其遵循的逻辑路径可见。
“我们决定让 Claude 的推理过程公开，这反映了对多重因素的考量。其中一个因素包括提升用户体验以及 Claude 推理过程中的信任透明度，”Anthropic的发言人说。“这为用户提供了结论如何得出的洞察，有助于建立适度的信任和理解。当用户能够观察思维链时，他们通常更信任输出结果。我们希望这种可见性能让用户更好地评估 Claude 推理的质量和全面性，并帮助用户更好地理解 Claude 的能力。此外，我们希望通过阅读 Claude 的思维输出并对特定推理步骤提供有针对性的反馈，用户和开发者能创建更好的提示词。”
“能够展示模型的实际思考过程，对于可解释性来说非常有益，”Daniels 说。“在能够演示思维链 (CoT) 推理之前，其实质只是下一个词元的概率。所以有点像黑匣。”
这些技术拥有横跨多个行业的商业应用。“金融和法律领域天然适合，因为它们处理的是结构化文档，”Daniels 补充道，“任何受监管的行业都能从这些先进的思考模型中获得巨大价值。”
但混合推理在需要复杂分析的领域中尤其有用。
“数学和代码确实是我在推理基准测试中看到的两个焦点，”Daniels 说。对于软件开发，其优势可能非常显著：“使用思考模型将能够根据你设定的需求，规划出项目的范围应该是什么样子，”他说。
标准的 LLM 通过基于其训练数据中的模式预测最可能的下一个词来生成响应。这种方法对许多任务效果良好，但这些模型在处理多步骤推理问题时可能会遇到困难。
混合推理模型可以切换到计算密集型模式，在给出最终答案之前明确生成中间推理步骤。该模型利用这些步骤来处理复杂问题，类似于人类在解决复杂数学问题时写出中间步骤。
实现混合推理的架构建立在研究人员所称的“测试时计算”之上，该概念涉及在推理阶段而非仅训练阶段投入计算资源。
“很多时候，传统上，所有的计算能力都会用于训练模型，而模型推理在计算需求方面相对较轻，”Daniels 说。
但随着 AI 系统变得越来越复杂，挑战将不仅是处理能力——还将在于知道何时有效地使用它。Daniels 表示，这就是为什么混合推理的下一个前沿将是更智能的自我调节：教会 AI 何时自行启动其深度思考模式，而无需人类指示。
“推理模型或混合推理模型的下一步，是我们如何能在测试时计算或思考框架内，更好地理解或更好地对输入进行分类，”他说。
