推理模型是一种大语言模型 (LLM),在生成输出之前,它已经过微调,可将复杂问题分解为更小的步骤,这些步骤通常称为“推理痕迹”。训练模型运用思维链推理和其他多步骤决策策略的手段日益精进,特别是在数学和编码等逻辑驱动型任务的基准上,已经取得了最先进的性能。
推理模型不是立即生成对用户输入的直接响应,而是经过训练,在得出提供给用户的最终答案之前首先生成中间“推理步骤”。一些推理 LLM 会向用户显示其推理轨迹,而其他 LLM 则只会总结或完全隐藏这些中间输出。
简而言之,推理 LLM 接受的训练是花更多的时间“思考”后再做出反应。经验表明,加入这种“推理过程”可以显著提高 LLM 在复杂推理任务上的性能。这一成功扩大了 AI 模型在现实世界中的用例和领域,标志着生成式 AI 和 AI 智能体的持续发展迎来了一个重要的转折点。
不过,值得注意的是,像模型的“思维过程”这样的拟人化术语比字面意思更方便。与所有机器学习模型一样,推理模型归根结底只是应用复杂的算法进行预测,比如下一个词应该是什么,这些预测反映了从训练数据中学到的模式。推理 LLM 尚未表现出意识或其他通用人工智能 (AGI) 的迹象。Apple 于 2025 年 6 月发布的 AI 研究报告对当前的模型推理能力能否扩展到真正的“泛化”推理表示怀疑。1
或许最准确的说法是,推理 LLM 经过训练,通过生成类似于人类思维过程的一系列令牌(词语)来“展示其工作过程”— 而这种“表达”思想的行为似乎解锁了 LLM 从其庞大的训练数据语料库(其中包含个人直接和间接阐述自身过程的示例)中暗暗学习到的潜在推理能力。
2024 年 9 月,OpenAI 的 o1-preview(和 o1-mini)2提出了“推理模型”的概念,随后 11 月,阿里巴巴的“Qwen with Questions”(QwQ-32B-preview) 和 12 月 Google 的 Gemini 2.0 Flash Experiment 也提出了这一概念。推理 LLM 的发展历程中的一个里程碑是 2025 年 1 月发布的开源 DeepSeek-R1 模型。此前用于微调推理模型的训练过程一直是严守的秘密,而 DeepSeek 发布了一份详细的技术论文,为其他模型开发者提供了蓝图。此后,IBM Granite、Anthropic 和 Mistral AI 等公司也发布了旗下推理 LLM。
在模型输出中添加“思维过程”可以帮助模型避免有害的认知捷径,并揭示从训练数据中了解到的更多潜在相关知识,从而弥补标准 LLM 推理的许多固有缺陷。
在推理 LLM 的背景下,AI 研究文献经常引用“系统 1”和“系统 2”思维,这些术语是诺贝尔奖得主、行为经济学家 Daniel Kahneman 在其开创性的《Thinking, Fast and Slow》中发明的。“系统 1”思维快速、无意识、基于直觉,依赖于启发法,几乎不需要任何工作量。“系统 2”思维缓慢、深思熟虑、合乎逻辑,需要协同工作强度。自回归 LLM 默认倾向于“系统 1”思维。
对于某些任务,“系统 1”思维十分高效且计算高效。但对于许多任务来说,冲动的“系统 1”思维并不奏效。例如,Meta 研究人员 Jason Weston 和 Sainbayar Sukhbaatar 在 2023 年发表的一篇论文中指出,LLM 很容易受到输入提示中存在的不相关上下文或主观细节的影响。
他们提出了一类称为“System 2 Attention”(S2A) 的技术,其中指示模型首先生成输入提示的重写版本,其中去除了不相关的上下文,然后回答重写的提示。实验中,S2A 在各种任务中的表现都优于标准推理,提高了准确性并减少了阿谀奉承。
从概念上讲,推理方法的隐含目标可以理解为实现类似“系统 2”的模型行为,即深入了解、评估和改进其潜在输出。
早期 LLM 研究表明,只需添加“逐步思考”这一短语,即所谓的思维链提示,就能显著提高模型的输出结果。4,52024 年,Google DeepMind 发表的一篇论文提出了更广泛的论断:扩大测试时间计算(用于生成输出的资源)对模型性能的提高与扩大训练时间计算(用于训练模型的资源)一样多。6CoT 提示只是众多此类推理缩放技术之一,S2A 也是如此。
现代推理 LLM 更进一步:它们不依赖于提示,而是使用新颖的微调技术和复杂的工作流,从本质上增加模型在推理时使用的计算量。推理模型的优化既带来开发算法和训练数据的技术挑战,也带来设计理想“思维过程”的理念挑战。
推理 LLM 训练的初始阶段与传统 LLM 训练相同。与标准 LLM 一样,推理模型从大规模自监督预训练中获得其一般语言设施和世界知识,然后进行一定量的监督微调 (SFT) 以适应下游任务(例如会话式聊天机器人的使用)。核心创新在于新型强化学习 (RL) 技术的应用,激励模型在推理时生成中间“推理步骤”,然后再产生最终输出。
经过多年的研究和实验,推理方法的数量呈指数级增长,但它们的共同基本目标都是提高测试时间计算能力。除了作为基础(或指令调整后的)LLM 之外,推理模型的区别在于它们接受训练采用的具体决策策略以及用于激励该行为的具体算法。
从广义上讲,有两种主要方法可以增加推理时使用的计算量。对推理模型进行微调的目的是通过各种学习算法对其进行训练,使其能够采用上述几种方法中的一种(或两种)。
产生推理模型的学习范式,其本质通常是在解法可验证的问题(如编码任务或数学问题)方面进行训练和评估。因此,用于评估推理模型性能的基准指标通常侧重于这些领域。在主观性较强的领域,如创意写作领域,对推理影响的研究要少得多。
推理 LLM 兴起的核心是基于 RL 的微调的进步,包括 LLM 环境中基于规则的 RL 和深度学习驱动型 RL(“深度 RL”)。监督学习和自监督学习需要明确定义的静态训练任务,而 RL 非常适合多步骤推理最有用的动态、开放式和复杂任务。
使用 RL 来微调 LLM,从而赋予其抽象特性,这种做法并非推理模型独有。例如,在聊天机器人设置中使用的 LLM 的标准训练管道如下:
推理 LLM 通常会经历相同的训练阶段,并(在某个时候)增加强化学习阶段,以灌输基于 CoT 的高效推理过程。要实现这一目标,需要定义推理过程的目标 — 获得“奖励”的具体模型行为,例如在最终输出前生成 CoT 推理痕迹,然后以奖励最大化的方式优化模型权重。
由于很难甚至不可能为像推理过程这样抽象复杂的任务设计一个明确的奖励函数,使其对所有复杂问题的解决都有效,因此这种奖励信号通常来自训练过程中使用的单独奖励模型。在 RLHF 中,这种奖励模型本身根据人类反馈进行训练,并学习预测人类对给定响应的偏好程度。
在推理模型的 RL 背景下,奖励信号可以分为 3 大类:结果奖励模型 (ORM)、过程奖励模型 (PRM) 和基于规则的奖励系统。
ORM 顾名思义,用于验证推理模型最终输出的准确性,并提供奖励信号,以便相应地优化模型权重。这与监督学习中损失函数的作用表面上相似,尽管其机制通常更为复杂。
损失函数通常用于衡量模型输出与基本事实之间的逐个令牌差异,而有效的 ORM 必须能够识别数学问题的正确答案,即使所呈现的答案与现有的基本事实答案大相径庭,鉴于长 CoT 输出的高变异性,这种情况经常发生。同样,大多数现实世界的编码问题都有多种解决方案:全面评估代码输出通常需要一个能够高效执行和验证代码片段有效性的数据管道。其他输出质量(例如,是否遵循规定的格式或指令)可以使用标准 LLM 作为验证器。
虽然 ORM 是一种相对简单且计算效率高的解决方案,但它们可能会奖励一些推理步骤存在缺陷但仍能得出最终正确答案的情况,从而导致模型学习到次优的推理过程。
PRM 单独对每个推理步骤进行评分和奖励(或惩罚),而不是只关注最终答案的准确性。这提供了更精细的奖励信号和后续模型调整,产生具有更强大和可解释推理过程的模型。
不过,PRM 的训练和实施成本更高、更耗时。有影响力的早期 PRM 方法几乎完全依赖于人工注释者的费力数据标记。7 其他方法则通过根据推理步骤得出正确答案的频率来推断其有效性,从而实现这一过程的自动化。8
为了避免奖励模型的成本和复杂性,一些基于 RL 的微调方法在设计训练任务时简化了评估模型输出的行为。例如,DeepSeek-R1 和 R1-Zero 技术提示模型将最终答案格式化在一个单独的框中,从而无需专门的奖励模型来解析整个响应即可验证准确性。其他基于规则的奖励系统会激励特定的微操作,例如在回复末尾添加“等待”以鼓励更多探索和自我纠正,这些微操作很容易验证。9
DeepSeek 在训练其开源 R1-Zero 实验推理模型时,首创了一种简单易懂且极具影响力的强化微调技术。
以 DeepSeek-V3 作为基础,DeepSeek 直接从预训练转变为极其简单的基于规则的强化学习方案:
令人惊讶的是,在没有任何明确指令的情况下,DeepSeek-R1-Zero 学会了生成复杂的思维链并采用推理策略,在数学和推理任务中表现出色。换句话说,该模型仅被赋予在输出最终答案之前“思考”并最大限度提高最终答案准确性的任务,它自然而然地探索并“发现”了最优推理模式。
实际上,这种精简的方法存在重大缺陷:正如技术论文所解释的那样:“DeepSeek-R1-Zero 遇到了无休止重复、可读性差和语言混合等挑战。”尽管如此,这种纯粹 RL 方法成为了更精细方法论的基础,产生了广受欢迎的 DeepSeek-R1 模型。
虽然大多数基于 CoT 的 RL 范式旨在优化单个模型输出的有效性,但其他方法会生成多个最终或中间输出,其目的是识别和激励最佳推理步骤。
许多此类方法依赖基于搜索的优化算法(例如,蒙特卡罗树搜索 (MCTS)),以生成和深入了解多个潜在的后续推理步骤,并根据后续步骤的质量及其可能产生的最终答案进行评估。然后,通过推理路径迭代反向传播奖励,从而获得理想的结果,并以增加这些推理步骤可能性的方式优化权重。这对于具有很大范围潜在决策的推理任务,或需要广泛的长期规划才有机会得出准确最终答案的推理任务特别有用。
另一种方法是自洽法, 也称为多数投票法。每项任务都以思维链提示开始。从模型的解码器中采样多个响应,每个响应都有自己的推理路径。在采样的输出中出现最一致的最终答案被确定为最佳答案。这既可以用作推理时间策略以尽量减少随机性和幻觉,也可以作为基于 SFT 的方法生成高质量推理数据的手段。
此类方法的主要缺点是会增加延迟和计算开销。然而,一些研究表明,采用基于搜索或基于样本的推理算法的较小模型可以为传统使用的大型模型提供更好的性能效率权衡。10
微调推理模型最直接的方法之一,就是在包含具有挑战性的输入提示和相应的基于 CoT 的输出的数据集上使用监督学习。
虽然使用传统方法通过人工编写示例“手动”组装训练数据集非常耗时耗力,但推理模型和推理缩放技术的普及使得生成合适的合成训练数据变得容易得多。Stanford University 和 Allen Institute for AI 研究发现,在整理后仅包含 1,000 对问题和推理痕迹的数据集上对 Qwen2.5-32B-Instruct 模式进行微调后,其“s1”模型在竞赛数学问题上击败了 OpenAI 的 o1-preview。
知识提炼还可用于教授较小的模型来模拟较大推理模型的思维过程,方法是直接通过 SFT 对较大的“教师”模型生成的输出进行微调。DeepSeek 以 DeepSeek-R1 为教师,使用知识提炼方法,创建了多种规模的 Qwen 和 Llama 模型的推理调整版本。
其他方法旨在通过模型的“自我完善”过程,对提示和相应的长 CoT 输出数据集进行自助引导。自学推理器 (STaR) 提供少量有效的推理痕迹示例,然后提示模型为更多示例问题生成答案和理由。然后,根据最终得出正确答案的理论依据对模型进行微调,之后重复上述过程。11 强化自我训练 (ReST) 采用类似的概念方法来微调用于强化微调的奖励信号(或“策略”)。12 两者都产生了许多衍生方法。
尽管推理 LLM 有许多优势,但它们并非没有缺点。
推理模型容易过度思考,尤其是那些参数相对较少的模型。腾讯的一项研究发现,与传统模型相比,推理模型在得出相同答案时平均要多消耗 1,953% 个词元。13多所大学的研究人员进行的另一项研究发现,在智能体化的环境中,推理模型倾向于进行扩展的循环推理,而不是与外部工具和信息源互动。
Anthropic 于 2025 年 7 月发表的研究断言,这种过度思考不仅仅是效率问题:他们的论文深入探讨了“较长的推理会降低性能的情况,表现出测试时间计算与准确性之间的反比关系”。虽然经验表明,增加测试时间计算通常可以提高模型性能,但他们的研究表明,在多种情况下,较长的推理会放大模型的弱点和对齐问题,从而挑战“更多推理普遍会改善模型输出的假设”。15
Apple 在 2025 年初进行的一项相关研究表明,在一系列低复杂度任务中,标准模型的表现优于推理模型;而在高复杂度任务中,两种模型类型都彻底失败。在 Apple 的探索中,推理模型“无法为规划任务开发出可推广的解决问题的能力,超过一定的复杂性阈值,性能就会骤降至零”。1
虽然推理微调通常能显著提高数学和编码等逻辑领域复杂任务的性能,但在其他领域则可能导致性能下降。例如,与原始版本相比,通过 DeepSeek-R1 上的知识提炼进行微调的 Llama 3.1 和 Qwen2.5 版本在 ArenaHard 和 Alpaca-Eval-2 上表现出回归,这两个流行的基准用于衡量模型思考解决困难指令的能力。话虽如此,目标更广泛的推理技术,例如用于微调 IBM Granite 3.2 的 思维偏好优化 (TPO),可以显着改善指令遵循能力(尽管对数学或编码性能没有实质性影响)。
用户必须为模型在“思考”期间生成的所有词元付费(并等待),而这些思考词元会占用可用的上下文窗口。有些使用场景需要额外的时间和计算资源,但对另一些场景来说,这是一种资源浪费。然而,在逐个任务、逐个提示的基础上不断地从推理模型切换到“标准”模型是不切实际的。
一种解决方案是“混合推理模型”。今年二月,IBM Granite 3.2 成为首个提供可开关“思考”模式的大语言模型,允许用户在需要时利用推理能力,不需要时则优先考虑效率。16当月晚些时候,Anthropic 的 Claude 3.7 Sonnet 紧随其后,为 API 用户新增了细粒度控制模型“思考”时长的功能。17Google 推出了类似的功能来调整 Gemini 模型的“思维预算”。18同样,OpenAI 的 o1 和 o3 推理模型的“推理强度”可以设置为“低”、“中”或“高”。
从表面上看,向用户揭示模型的思维链有助于准确理解 LLM 如何得出最终答案,从而提供比标准模型通常可能实现的更大的可解释性。但 Anthropic 的研究表明,推理模型并不总是能表达出它们的真实想法。在一系列专门设计的任务中,研究人员发现 Claude 3.7 Sonnet 和 DeepSeek-R1 都没有忠实地解释其推理:例如,提供正确答案的提示时,其回答在描述所谓的理由时很少提及这些迹象。19
深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
除非另有说明,所有链接均位于 ibm.com 外部。
1.《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》,Apple Machine Learning Research,2025 年 6 月
2.《Introducing OpenAI o1-preview》,OpenAI,2024 年 9 月 12 日
3.《From System 1 to System 2: A Survey of Reasoning Large Language Models》,arXiv,2025 年 2 月 24 日
4.《Large Language Models are Zero-Shot Reasoners》,arXiv,2022 年 5 月 24 日
5.《Show Your Work: Scratchpads for Intermediate Computation with Language Models》,arXiv,2022 年 11 月 30 日
6.《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》,arXiv,2024 年 8 月 6 日
7.《Let's Verify Step by Step》,arXiv,2023 年 5 月 31 日
8.《Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations》,arXiv,2023 年 12 月 14 日
9.《s1: Simple test-time scaling》,arXiv,2025 年 1 月 31 日
10.《Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models》,arXiv,2024 年 8 月 1 日
11.《STaR: Bootstrapping Reasoning With Reasoning》,arXiv,2022 年 3 月 28 日
12.《Reinforced Self-Training (ReST) for Language Modeling》,arXiv,2023 年 8 月 17 日
13.《Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs》,arXiv,2024 年 12 月 30 日
14.《The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks》,arXiv,2025 年 2 月 12 日
15.《Inverse Scaling in Test-Time Compute》,arXiv,2025 年 7 月 19 日
16.《Bringing reasoning to Granite》,IBM Research,2025 年 2 月 7 日
17.《Claude 3.7 Sonnet and Claude Code》,Anthropic,2025 年 2 月 24 日
18.《Generative AI on Vertex AI: Thinking》,Google
19.《Reasoning models don't always say what they think》,Anthropic,2025 年 4 月 3 日