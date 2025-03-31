随着 OpenAI o1、DeepSeek-R1 和 Google Gemini 2.5 等推理模型争相冲击 AI 智能基准榜单榜首，寻求 AI 集成的企业却对一种名为“模型臃肿”的现象日益警惕——这种现象指模型变得不必要地庞大或复杂，不仅推高了计算成本与模型训练时间，还降低了其提供企业所需响应的速度。
OpenAI o1 和 DeepSeek-R1 使用思维链 (CoT) 推理将复杂问题分解为若干步骤，与现有模型相比实现前所未有的性能和更高的准确性。但 CoT 在推理过程中也需要大量资源，从而导致冗长的输出和更高延迟，IBM 副总裁兼 AI 基础架构组合负责人 Volkmar Uhlig 在接受 IBM Think 采访时表示。
多篇新发表的论文中提出了一类全新的提示技术，涵盖思维原子 (AoT) 与草稿链 (CoD) 等方法。这类技术旨在通过助力模型更高效地解决问题，提升思维链 (CoT) 的效率与准确性，进而降低相关成本与延迟。
AI 科学家兼初创公司创始人 Lance Elliott 这些新型衍生技术，本质上是提示词工程师工具包中的多元变体。“普通家庭的手工工具包里可能会有一把常规锤子，这就相当于思维链，”他在接受 IBM Think 采访时表示，“思维原子则好比用于切割和修整石膏板的专用锤子。你当然可以用常规锤子来处理石膏板相关工作，但如果有一把石膏板专用锤，而且你知道如何正确使用它，那显然用专用锤会更合适。”
IBM 的 AI 技术解决方案架构师 Vyoma Gajjar 认为这些思维链的新型衍生技术极具应用潜力,尤其适合那些“希望通过更具成本效益的提示词策略，驱动小型模型为其特定用例输出精准答案”的企业，她表示。
与将复杂问题分解成详细的、顺序的步骤来解决的思维链不同，思维原子使用的是分而治之的战略。香港科技大学与中国人民大学的研究者在一篇论文中解释道，思维原子的核心机制是将问题拆解为可并行处理的“原子级问题”，随后通过整合各个独立解决方案，最终得出完整答案。
思维原子既可以作为独立框架，也可以作为插件增强。研究者将思维原子技术应用于 OpenAI 的 GPT-4o mini 模型后，该模型在六项基准测试中表现超越了多款推理型模型 —— 其中在 HotpotQA 数据集上，其性能较 o3-mini 提升 3.4%，较 DeepSeek 的 R1 模型提升 10.6%。
Gajjar 认为，思维原子技术在企业级应用中极具潜力，尤其适合那些希望在保证性能的同时，维持既定成本结构的业务场景。“这些独立任务会并行运行，随后让这些任务（或称‘原子’）相互协同，就像电子与质子之间的相互作用一样，最终得出最精准的解决方案，”她在接受 IBM Think 采访时表示。
该论文的研究者证实，思维原子技术能够“以显著更低的计算成本实现具备竞争力的性能”，并补充说明：“这种效率提升得益于我们提出的原子态表征机制，该机制仅保留必要信息，同时消除冗余计算。”
但是，思维原子技术并非适用于所有用例。AI 科学家 Elliott 表示，“当使用生成式 AI 导出数学证明、生成编程代码和高度结构化的推理任务时”，思维原子技术最有可能发挥作用。他说，这将不太可能提高创造性写作任务和参与对话的效率。
与此同时，草稿链提示词技术针对性解决了推理型模型的核心瓶颈，这类模型在推理过程中往往会生成冗长且细节过度的步骤，进而导致延迟升高。Zoom Communications 的研究者在一篇关于草稿链的新论文中指出，这种现象正是推理型模型与人类思维的关键差异所在：人类通常会“借助简洁的草稿或速记笔记捕捉核心洞见，而不会进行不必要的详尽阐述”。
“延迟问题往往被忽视，”该论文的研究者写道，“但对于众多实时应用而言，在保持高质量响应的同时实现低延迟至关重要。”
借助草稿链提示词技术，大语言模型在推理得出答案的过程中，会被引导生成简洁的解释。例如，思维链的对照提示词为：“逐步思考以回答以下问题。在响应末尾用分隔符 #### 隔开后返回答案。”相比之下，草稿链的提示词则指令模型：“逐步思考，但每个思考步骤仅保留最精简的草稿，最多不超过 5 个词。在响应末尾用分隔符隔开后返回答案。”
研究者通过 OpenAI 的 ChatGPT-4o 与 Anthropic 的 Claude 3.5 Sonnet 模型进行测试后发现，草稿链技术在各项推理任务中的准确率与思维链持平或更优，同时令牌消耗量减少 92.4%，显著降低了成本与延迟。
“我们正处于算法探索的全新阶段，”IBM 的 Uhlig 表示，“若能采用差异化的提示词训练方式，就能大幅减少令牌使用量。这是技术发展中顺理成章的下一步。”
尽管各类新型提示技巧持续涌现，但一种名为“思维框架 (SoT)”的技术尤为引人注目，它融合了思维原子与草稿链的核心元素。提出该技术的论文作者表示，其设计灵感源于“人类的写作与思考过程”。思维框架提示词技术会先引导大语言模型生成答案的核心框架，随后再并行补全每个框架要点的具体内容。
中国清华大学与微软研究院的研究者通过思维框架技术，不仅实现了多款大语言模型的运行提速，还在多个任务类别中提升了答案准确率。“我们证实了无需对现有大语言模型的模型架构、系统配置或硬件设备进行任何改动，即可实现并行解码的可行性，”他们在论文中写道。
例如，研究人员向模型提出了这样一个问题：“在工作场所中，解决冲突最有效的战略是什么？”例如，研究者向模型提出问题：“职场冲突解决的最有效策略有哪些？”借助思维框架提示词技术，使用 Claude 模型时，延迟从 22 秒降至 12 秒（提速 1.83 倍）；使用 Vicuna 33B V1.3 模型时，延迟从 43 秒降至 16 秒（提速 2.69 倍）。
Elliott 说，归根结底，没有任何一种提示技巧能应对所有挑战，具体采用“提示词工程师工具包”中哪类最高效的方案，取决于当下的任务场景。“深入了解生成式 AI 的底层工作原理极具价值，”他解释道，“这就像开车。你未必需要掌握发动机或变速箱的复杂细节，但至少熟悉一些核心原理，对更好地操控车辆大有裨益。比如在结冰路面、湿滑路面行驶，或是应对山路、急弯等场景时，你能更从容地应对。”
