在 DeepSeek 以低成本、高性能的 R1 模型震撼硅谷与华尔街近一年后，这家中国 AI 实验室正蓄势再次撼动 AI 行业。此次，DeepSeek 发布了一个新框架 ，有望使 LLM 的训练更高效、稳定且可扩展。或许最关键的是，它降低了预训练成本，从而让规模较小的公司与独立开发者也能释放 LLM 的潜力。
IBM 杰出工程师 Chris Hay 在接受 IBM Think 采访时表示：“通过这项创新，DeepSeek 要解决的是‘如何在预训练中让每一分钱产生更大价值’。模型训练才是成本最高的部分。”
DeepSeek 的研究人员在参数量为 30 亿、90 亿和 270 亿的模型上测试了这种名为“流形约束超连接”的新架构。他们发现，模型在扩展时并未增加显著的计算负担或不稳定性——而这两者通常随规模扩大而同步增长。
IBM 首席研究科学家 Kaoutar El Maghraoui 在最新一期 《混合专家模型》播客中表示，前沿 AI 实验室通常依赖“蛮力”来改进 AI。她指出，这意味着“增加更多数据、更多算力、更多参数”。但这种方式“效率日益低下，且仅有少数大公司能够承担”。
El Maghraoui 强调，DeepSeek 的 mHC 架构可能彻底改变 模型预训练范式。她表示：“这是在更智能地扩展 AI，而不仅仅是将其变大。这是一种更聪明的模型设计方式，对硬件也更为友好。”El Maghraoui 指出，mHC 还能轻松集成至企业的定制硬件中，这使其成为寻求高性价比 AI 解决方案的企业极具吸引力的潜在选择。她以 IBM 的专用 硬件加速器为例，该设备旨在为本地部署的企业客户加速 AI、机器学习和深度学习工作负载。
法国 AI 初创公司 Pleias 联合创始人 Pierre-Carl Langlais 在 领英发文中提出，该论文的真正意义超越了仅证明 mHC 的可扩展性。他认为，“真正的实力展示”在于 DeepSeek 重新设计训练环境各个维度的能力，他写道。“正是这一点使其成为前沿实验室。”
对 Hay 而言，DeepSeek 持续开源其新成果的做法值得关注，因为这使更广泛的群体能够接触 AI。他表示：“我欣赏他们不断提出创新、向世界开放、让人们尝试，进而带动整个领域前行。”
随着规模较小组织的 AI 负责人在实施高性价比 AI 解决方案时面临诸多复杂性，像 DeepSeek 的 mHC 框架这样的创新，使他们更容易获取历史上仅财力雄厚的大公司才能拥有的强大基础模型。通过显著降低 LLM 预训练成本并提高 AI 的可及性，DeepSeek 的突破有望为中小型企业彻底改变 AI 格局。
