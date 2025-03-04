标签
DeepSeek 的突破是创新与普惠的双赢

漂浮在太空中的光束与粒子效果 3D 渲染

作者

Shobhit Varshney

VP & Sr. Partner, AI, Data & Automation Leader, Americas

IBM

如果你留意 2025 年 1 月 20 日的头条新闻，可能会觉得天要塌了。这是因为中国公司 DeepSeek 发布了其 R1 大语言模型 (LLM)，该模型在发布后不久迅速成为下载量和活跃度最高的模型之一。

引发这场轰动的关键在于，这家以自身名义发布模型的杭州人工智能实验室，仅以 560 万美元的极低成本和远少于美国领先模型的算力资源与英伟达芯片，便成功构建出这一模型。

不出所料，人们开始公开担忧那些重金投入的美国人工智能企业即将落后。由于 DeepSeek 使用的英伟达芯片少于其他公司，该公司的股价应声下跌。但这更多是市场对消息的应激反应，而非对这家芯片制造商前景的真正担忧。

科技与商业记者将此事件视为对体系的冲击。然而对我及其他人工智能专家而言，DeepSeek 发布 R1 唯一的令人惊讶之处，在于众人竟如此惊讶。

虽然该模型是新品，但 DeepSeek 绝非市场新人。它在中国市场拥有丰富的开源模型研发经验，特别是去年 12 月发布的 V3 模型尤为突出。事实上，其同步发布的技术论文为有志深入探索如何构建实验室的人提供了绝佳教材。V3 模型本应引发更大反响，却显然未引起足够关注。

DeepSeek 的 R1 模型无疑是生成式 AI 工具的又一典范，它将成为实现智能体 AI 未来的基石——届时人工智能不仅能回应用户需求，更能独立为用户提供服务。

虽然 IBM 通过设计合作使用所有这些模型，我们同样是开源运动的坚定倡导者与实践者。见证像 R1 这样的开源模型获得应有的赞誉，对行业而言意义非凡。

行业巨头目睹 DeepSeek 以远低于知名模型的成本打造出性能相当甚至更优的模型时感到不适，这完全可以理解。但这正是开源社区存在的意义所在。

DeepSeek R1 的发布呈现了两个平行世界：金融市场预见了动荡，而人工智能专家则因技术突破及其催生更高效强大模型的潜力而振奋。

从 DeepSeek 突破中我获得的五点重要启示

  1. AI 的未来是开放的
  2. 成功秘诀在于混合专家训练法
  3. DeepSeek 的创新和突破将使所有人受益
  4. 硬件优化可降低成本，拉平竞争环境
  5. 与新闻报道相反，这只会增加对 AI 芯片的需求

AI 的未来是开放的

R1 仅印证了诸多先行者的认知，而世界正逐步意识到这一点。DeepSeek 显然站在了所有为开源环境贡献力量的巨人肩膀上，这包括 IBM、Meta 等众多先驱。开源模型将持续引领创新浪潮。尽管 R1 最初对行业造成了冲击，但所有人都将因其存在而受益。特别是考虑到 DeepSeek 刚刚宣布举办“开源周”，每天分享一个开源代码库。

成功秘诀在于混合专家训练法

DeepSeek R1 采用混合专家（MoE）模型机器学习方法，将人工智能模型划分为独立的子网络，各专注于输入数据的特定子集，以协同完成任务。

因此，当使用 MoE 方法时，无需同时激活模型中的所有参数。例如，DeepSeek V3 或 R1 模型虽拥有约 6710 亿参数，但每次仅激活 370 亿参数。这种仅调用模型中极小部分来解答问题的机制，显著提升了运行效率。

DeepSeek 的突破是创新与普惠的双赢

历史上，研究人员在训练 MoE 模型时曾遭遇诸多困难。DeepSeek 开创性地提出了一系列解决方案，在保持整体工作负载的同时，使混合专家模型达到适度且高效的平衡。

例如，V3 和 R1 模型使用了强化学习，替代对标注数据的依赖。这项技术通过多路径推演寻找答案，在探索过程中持续进行路径评估，从而快速识别错误方向，及时回溯并锁定更优解决方案。

这种“思维链”推理机制指引模型抵达准确答案，并获得相应奖励。这种强化学习方法帮助他们的模型训练达到甚至超过 OpenAI 等模型的性能水平。

硬件优化可降低成本，拉平竞争环境

有时，限制会催生创新。受美国对华芯片出口管制影响，DeepSeek 能获取的英伟达芯片有限。尽管其母公司目前持有 2000 枚英伟达 H800 芯片，但仍需在部署策略上保持灵活变通。团队深入硬件层面开展具有突破性的工作，达成了多项优化成果。

开源社区普遍采用英伟达 Cuda 平台，该平台丰富的库函数能够协助连接各类 GPU，实现高效的通信与负载分配。然而，DeepSeek 更进一步，深入到底层库之下，对硬件进行了深度优化。

现实情况表明，开源模型的进步速度始终令人惊叹不已。

与新闻报道相反，这只会增加对 AI 芯片的需求

人工智能离不开芯片。初期，有关未来制造优秀模型所需芯片数量可能减少的新闻，致使部分行业观察者误判芯片需求将会萎缩。但依据杰文斯悖论，实际情况恰恰相反：效率的提升往往会刺激消费的增长。从历史上的燃料能源使用情况，到空调效率提升促使人们建造更大住宅的现象，优质资源向来都是供不应求。

全球威士忌产业为例。近年来，独立与小批量蒸馏厂的兴起，反而推高了谷物的需求。任何行业在经济发展为小企业创造机遇时，都会出现类似的现象。单个企业的芯片使用量或许会减少，但 DeepSeek 证明，更多参与者能够借助开源技术，以更低的成本打造卓越的模型。

对我来说，这才是最重要的启示。这意味着，未来能够打造下一代模型的不再仅限于那些拥有顶级算力的精英机构。或许还存在其他路径，让规模较小的实验室也能开始投入构建更多模型。这对于所有期待 AI 智能体智能体未来的人们来说，无疑是一个令人振奋的消息。

行业巨头之间的竞争永不停歇，短期内不必执着于胜负之分。每天都有企业、研究者和 AI 科学家基于更为科学的推理创新模型。

这正是我们对 Granite 系列大模型最新Granite®倍感振奋的原因——它们在 ArenaHard 和 AlpacaEva 等基准测试中的表现已经超越了 R1。我们的推理模型兼具高性能与安全特性，用户还可以根据具体场景自主选择是否启用推理功能。知识共享与开源实践终将惠及广大民众，其中最大的受益者当属广大用户。

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型，这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册，深入了解这些模型。
转到视频集

毫无疑问，R1 这类技术发展将惠及我们每一个人

尽管 OpenAI 等企业可能会因这类精悍对手的崛起而感受到压力，但这却是开源社区的伟大胜利，也与 IBM 对 AI 未来的展望不谋而合。开源模型的成功印证了小体量模型同样能够超越强者。这当然并不意味着行业巨头就此出局；若策略得当，它们完全可以借鉴 DeepSeek 的经验，以更低的成本开发出更大的模型。

但归根结底，竞争让企业和消费者皆从中受益。当 DeepSeek R1 这类颠覆性创新涌现时，胜利属于整个生态系统。
