推理模型不是立即生成对用户输入的直接响应，而是经过训练，在得出提供给用户的最终答案之前首先生成中间“推理步骤”。一些推理 LLM 会向用户显示其推理轨迹，而其他 LLM 则只会总结或完全隐藏这些中间输出。

简而言之，推理 LLM 接受的训练是花更多的时间“思考”后再做出反应。经验表明，加入这种“推理过程”可以显著提高 LLM 在复杂推理任务上的性能。这一成功扩大了 AI 模型在现实世界中的用例和领域，标志着生成式 AI 和 AI 智能体的持续发展迎来了一个重要的转折点。

不过，值得注意的是，像模型的“思维过程”这样的拟人化术语比字面意思更方便。与所有机器学习模型一样，推理模型归根结底只是应用复杂的算法进行预测，比如下一个词应该是什么，这些预测反映了从训练数据中学到的模式。推理 LLM 尚未表现出意识或其他通用人工智能 (AGI) 的迹象。Apple 于 2025 年 6 月发布的 AI 研究报告对当前的模型推理能力能否扩展到真正的“泛化”推理表示怀疑。1

或许最准确的说法是，推理 LLM 经过训练，通过生成类似于人类思维过程的一系列令牌（词语）来“展示其工作过程”— 而这种“表达”思想的行为似乎解锁了 LLM 从其庞大的训练数据语料库（其中包含个人直接和间接阐述自身过程的示例）中暗暗学习到的潜在推理能力。

2024 年 9 月，OpenAI 的 o1-preview（和 o1-mini）2提出了“推理模型”的概念，随后 11 月，阿里巴巴的“Qwen with Questions”（QwQ-32B-preview) 和 12 月 Google 的 Gemini 2.0 Flash Experiment 也提出了这一概念。推理 LLM 的发展历程中的一个里程碑是 2025 年 1 月发布的开源 DeepSeek-R1 模型。此前用于微调推理模型的训练过程一直是严守的秘密，而 DeepSeek 发布了一份详细的技术论文，为其他模型开发者提供了蓝图。此后，IBM Granite、Anthropic 和 Mistral AI 等公司也发布了旗下推理 LLM。