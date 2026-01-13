在 DeepSeek 以低成本、高性能的 R1 模型震撼硅谷与华尔街近一年后，这家中国 AI 实验室正蓄势再次撼动 AI 行业。此次，DeepSeek 发布了一个新框架 ，有望使 LLM 的训练更高效、稳定且可扩展。或许最关键的是，它降低了预训练成本，从而让规模较小的公司与独立开发者也能释放 LLM 的潜力。

IBM 杰出工程师 Chris Hay 在接受 IBM Think 采访时表示：“通过这项创新，DeepSeek 要解决的是‘如何在预训练中让每一分钱产生更大价值’。模型训练才是成本最高的部分。”

DeepSeek 的研究人员在参数量为 30 亿、90 亿和 270 亿的模型上测试了这种名为“流形约束超连接”的新架构。他们发现，模型在扩展时并未增加显著的计算负担或不稳定性——而这两者通常随规模扩大而同步增长。