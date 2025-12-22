人工智能

2026 年，最智慧的 AI 模型可能不再是规模最大的。

这正成为实验室、投资者与研究人员的共识——过去一年他们目睹了原有认知体系的颠覆。未来十二个月将不再以构建更庞大系统为焦点，而是转向开发更智慧的模型：那些在回应前会思考、能以少博多的系统。

IBM 院士 Kush Varshney 在接受 IBM Think 采访时表示：“小型语言模型能达到与庞大规模模型相当甚至更优的性能。”

若在一年前，此观点无异于异端。过去十年间，AI 始终遵循着残酷而简单的信条：更多数据、更多参数、更强算力、更高智能。实验室竞相公布参数规模，如同健美选手对镜展示肌肉。训练消耗的电力堪比小型城市。整个行业弥漫着圈地运动般的狂热，只是这场竞赛的疆域以万亿次浮点运算衡量。

随后时间来到 2025 年 1 月。中国公司 DeepSeek 发布的新模型，令英伟达股价单日暴跌 17%。算法智慧开始替代蛮力计算。人们不再需要恢弘圣殿，而是更精巧的蓝图。

美国主要实验室迅速转向。数月之内，他们从构建日益庞大的系统，转向开发能在回答前暂停推理的模型。北卡罗来纳大学凯南-弗拉格勒商学院运营学副教授 Seyed Emadi 在接受 IBM Think 采访时直言：“若要概括 2025 年的 AI 发展，我们停止了让模型变大，开始让它们变聪明。”

这一转向正塑造着未来图景。研究人员的共识鲜明得近乎惊人。当被问及过去一年最重要进展时，加州大学圣地亚哥分校机器学习教授 Misha Belkin 指出“思维模型的兴起与推理时扩展” ，并在采访中称其为 2026 年的基石。密歇根大学人工智能实验室主任 Rada Mihalcea 提出补充观点，她告诉 IBM Think：“多智能体系统的进步，以及对……缺陷的更深入理解”将定义未来发展路径。

这一转变意味着对硅基智能内涵的重新思考。旧范式将智能视为训练过程中注入的要素，如同炖菜中加入的调味料。模型一旦完成便固化定型。新范式则将智能视为运行时涌现的特性——通过赋予模型更多推理时间（即“推理时计算”）来实现。

这一变革的影响仍在持续显现。斯坦福大学研究 AI 推理能力的研究员 Gabriel Poesia 观察到，模型在“延长思考时间”与“在长思考过程中无缝使用工具”方面表现日益精进。用通俗语言解释就是：机器学会了三思而后行。

传统模型如同条件反射：输入即输出，毫无思考间隙。新型模型则具备深思能力。当面对难题时，模型会沉浸其中反复推演——有时长达数分钟——检查逻辑链条，从死胡同中回溯调整。这过程与人类思考惊人相似。但这是否构成真正意义上的思考，仍是悬而未决的重大命题。

更小、更快、更经济

如果说思维模型是 2025 年的学术主线，那么商业领域的重磅突破则更为直接：前沿 AI 技术的成本远低于所有人预期。曾被认为如引力定律般不可撼动的经济规律，实则更似流行趋势般易变。这一认知将重塑 2026 年的竞争格局。

DeepSeek 年初发布的模型如炸弹般震撼业界。该模型的性能比肩西方系统，训练算力消耗仅约十分之一。Varshney 指出：“这推动了行业变革。”“新竞争者的出现迫使所有参与者必须提升水平。”

模型架构本身也在悄然变革。热门的专家混合模式将输入导向专用子网络，而非为每个查询激活全部参数。这就像咨询专业领域专家，而非要求一位医生通晓所有病症。研究科技政策的北卡罗来纳大学法学教授 Andrew ChinIBM Think 解释其经济性：“稠密模型对每个计算令牌都产生相近算力成本，而稀疏系统仅通过参数子集处理令牌。”这对企业意义重大：“规模成为需要管理的要素，而非盲目追求的最大化目标。”

民主化趋势从架构延伸至微调领域。佩斯大学计算机科学教授 Christelle Scharff 告诉 IBM Think，她观察到“明显转向 LoRA（低秩适配）与轻量级微调的趋势，使得有限算力也能适配强大模型”。预算有限的研究者如今能定制化改造一年前还遥不可及的模型，技术壁垒正在瓦解。

效率提升也体现在系统设计层面。北卡罗来纳大学护理学院助理教授 Kandyce Brennan（致力于医疗 AI 研究）向 IBM Think 指出，像 MIT 的 DisCIPL 规划器这类方案——“由大模型规划协调众多小模型”——能以“低得多的计算成本”取得成果，同时降低能耗与环境负担。

Mihalcea 教授总结道：“数据局限与能源忧虑已成为现实挑战，这推动研究向小型模型方向发展。”而这些制约条件只会日益收紧。

企业真正需要的并非无所不能， Varshney 指出。他举了个生动的例子：你可以让模型评论月球上的民权状况，它会生成流畅的回应。“但大多数企业任务并非如此，它们更具针对性，”他说。规模至上的理念正在让位于适用为本的务实原则。

自信的错误

进步固然真实，局限同样存在。尽管 AI 模型新增了深思能力，它们仍然会犯一种特定类型的错误：以导游误入错误博物馆却泰然自若般的笃定姿态，输出自信的错误答案。

Poesia 指出了核心问题：“可靠性与创造性仍是两大挑战。即使达到 99.9% 的成功率也远远不够。”数学计算是残酷的。千分之一失败率的系统在处理百万次查询时将会失败一千次。在医疗、法律或金融领域，这种错误率是不可接受的。

创造性则是另一重困境。Poesia 观察到：“对于开放式任务……即使是不同公司的模型也倾向于给出相似的输出。”模型在寻找正确答案方面已变得极为出色。但在被要求展现原创性时却仍表现出奇怪的趋同性。

推理模型自身存在盲点。Varshney 指出：“对于存在可验证中间步骤的任务……这些更长流程确实有帮助。但大量任务并不存在可验证的中间步骤。”

名为 ARC-AGI-2 的基准测试揭示了这种差距。该测试提出的问题对人类而言简单，对 AI 却异常困难。Emadi 表示：“即使最先进的思维模型得分也远低于人类表现。模型推理能力虽优于以往，但仍可能自信地犯错。”

幻觉问题（该领域对虚构内容的委婉说法）表现形式虽有变化却依然存在。研究人机交互的北卡罗来纳大学教授 Mohammad Hossein Jarrahi 告诉 IBM Think：“幻觉的性质已发生转变，但并未完全消失。”生成听起来合理但事实错误信息的倾向仍然顽固存在。

部分研究者担忧更宏观的发展轨迹。北卡罗来纳大学教育技术项目主任 Todd ChernerIBM Think 表示：“AI 智能体日益增长的能力令人深思。我认为通用人工智能 (AGI) 的到来比人们意识到的更快。在真正推动 AGI 之前，我们应当善用现有技术。”

计算的基本原理依然适用。正如 RENCI 用户参与专家 Nathalie VolkheimerIBM Think 所言：“垃圾进，垃圾出。我们过度关注机器如何制造香肠，却忽视了香肠本身。但最终食用的正是我们的产出物。”

破解信任难题

一项未被充分宣扬的进展是：上下文窗口的扩展——即模型在工作记忆中所能承载的信息量。Jarrahi 指出：“我们看到更优秀的存储库级上下文处理能力，可达约百万令牌量级。”百万令牌约相当于数部小说的篇幅。他表示，模型如今能在更长的交互中保持连贯理解，这对法律文件审阅、软件开发与研究综述至关重要。

Jarrahi 补充道，引用功能也得到提升，“内置的溯源功能可指向具体段落”。当模型能展示其推理过程时，用户便可进行验证而非盲目采信。这正应了那句：信任，但需核实。或者说：不必轻信，务必核实。

但验证的作用毕竟有限。MIT-IBM 沃森人工智能实验室主任 Aude Oliva 告诉 IBM Think：“人机协作的未来在于对话。人工智能力系统必须具备某种程度的心理理论能力。了解 AI 系统的内部运作机制……是建立信任的基础。”心理理论——即理解他人具有不同观点的能力——是人类互动的基石。AI 缺乏这种能力所产生的摩擦，是任何技术能力都无法弥补的。

成功标准正在相应转变。Jarrahi 表示：“该领域正不可避免地转向以可追溯性、校准度和交互鲁棒性——而非原始流畅度——作为模型评判标准。”华丽指标正让位于可靠性指标，炫目性逐渐失效，可预测性成为核心。

Chin 指出：“主导理念已转变为‘约束中求能力’。领先的研究不再将规模本身视为目标，而是聚焦于让系统在真实限制下可预测地运行。”如今的进展更似工程难题的解决，而非登月般的宏大突破。

三面逼近的壁垒

多位专家向 IBM Think 表示，2026 年三大制约因素将决定各组织运用 AI 的能力边界。首先是经济制约，其次是物理制约，第三是监管制约。

从经济因素谈起。Chin 指出：“推理经济性将日益成为硬性上限。许多近期推理能力的提升，都依赖每次查询消耗显著增加的算力。”他强调，需要数分钟思考的模型无法部署在对实时响应有大规模需求的场景中。

物理制约同样严峻。Emadi 指出：“预计到 2030 年，全球数据中心耗电量将增长一倍以上。对许多组织而言，明年的制约因素将不是芯片供应，而是为其供电所需的吉瓦级电力。”整个行业多年来对芯片的执着，正让位于对发电厂的关注。

Brennan 补充道：“计算需求及其带来的环境成本依然高昂，引发了关于可持续性的重要伦理质疑。”AI 的碳足迹已成为无法忽视的问题。

监管则是另一重制约。Chin 表示：“设计即治理的压力将更直接地影响模型开发。对许多部署场景而言，要求不仅是高性能，还需具备可审计且行为受限的特性。”黑箱时代可能正走向终结。

产业与学术界的日益脱节令部分观察者担忧。Scharff 指出：“大学必须重新聚焦基础 AI 研究，投资那些将塑造未来 10 至 20 年领域发展的理念。”最大规模的模型已逐渐超出学术机构的能力范围，这引发了关于下一代创新源泉的棘手问题。

一项未获充分报道的进展是主权 AI 的兴起。Varshney 表示：“许多国家已在开发自己的模型。”他指出这具有重要意义，因为训练数据能更贴合本土文化，同时将经济控制权转移至本国。

对于 2026 年，Varshney 预计将持续进行实验探索而非重大突破。他提出：“并非所有技术都必须完全基于 Transformer 架构。”Mihalcea 恰给出了相似预测：“更小型、专业化的专家模型混合体，将借助多智能体系统发挥作用。”当被问及是否会出现重大飞跃时，Varshney 持谨慎态度。他说：“总存在出现另一个‘ChatGPT 时刻’的可能性……但我并不预期其发生。”诚实的答案是：无人知晓。

从业者已开始适应这一新格局。北卡罗来纳大学凯南-弗拉格勒商学院全球运营学教授 Jayashankar Swaminathan 告诉 IBM Think：“最重大的进展围绕自主智能体能力展开——AI 现已能按简单顺序执行多项任务；其次涉及对决策背后逻辑的推理能力。”

在医疗领域，转型已然启动。北卡罗来纳大学护理学院临床副教授 Maureen BakerIBM Think 表示：“AI 模型正以惊人速度进步。”但她区分了能力与部署：“批判性思维、临床推理与判断力必须始终保持核心地位。”她的策略务实而审慎：“我寻求风险最小化的易行方案。”

生态系统正在分化。佩斯大学信息技术教授 David Sachs 告诉 IBM Think：“当前似乎出现两类模型：大型的‘全能型’模型，以及如 Julius 或 Perplexity 等更聚焦的专用模型。”正如软件从单体应用演化为专用工具，AI 正在向细分领域分化发展。

“这些系统的实际应用……通过设计共生工作流来塑造。”Jarrahi 指出。人类贡献判断力、创造力与责任感。AI 则提供速度、一致性与海量信息处理能力。能够有效结合两者优势的组织将获得竞争优势。

Chin 表示：“前沿 AI 正从以原始规模为标志的时代，转向以流程、约束与操作权衡为特征的时代。”当工程师开始针对现实限制进行优化时，技术便走向成熟。以此标准衡量，AI 终于走向成熟。

但 Varshney 的思考超越了技术层面。他提出：“哪些任务将委托给AI系统执行？哪些仍由人类承担？是否因为人类能从某些事务中获得意义？从多维度看，人之为人的本质是什么？”
