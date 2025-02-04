AI 研究人员不断竞相打造更强大的模型，同时又不增加计算成本。随着对硬件限制和能耗的担忧日益加剧，提高效率的创新正变得与性能提升同等重要。

IBM CEO Arvind Krishna 在 LinkedIn 上写道：“长期以来，AI 竞赛一直是规模游戏，更大的模型意味着更好的结果。但没有任何物理定律规定 AI 模型必须庞大且昂贵。训练和推理的成本只是另一项需要解决的技术挑战。”

DeepSeek 在 AI 效率上的突破来自一项名为多头潜在注意力（MLA）的新技术。该方法改变了 AI 模型处理和存储信息的方式。关键改进在于 MLA 缩减了 KV 缓存的大小，而 KV 缓存对于 AI 系统高效运行至关重要。Cox 认为，这使 AI 系统使用更少内存，并更容易扩展规模。

Cox 指出：“他们在这方面做了非常出色的工作。减小 KV 缓存至关重要，因为它能让模型运行更快，消耗更少资源。”

在 DeepSeek 的幕后，这些突破实现了成倍增长。IBM Research 首席研究科学家 Prasanna Sattigeri 指出，公司这些创新关注的是效率和架构改进。

Sattigeri 表示：“他们优化了 GPU 之间的通信，而这通常是大规模 AI 训练的瓶颈。这使他们能够使用旧硬件高效训练，这是令人赞叹的工程壮举。”

但像任何目标远大的工程项目一样，这一次飞跃也是需要付出代价的。DeepSeek 还采用了强化学习（RL）技术，这种方法与 OpenAI 在 o1 推理扩展中使用的技术类似。该方法通过在多次迭代中强化成功的输出，不断优化模型的表现。不过，Cox 指出，DeepSeek 的具体实现也带来了权衡，例如函数调用能力较弱，以及在安全对齐方面存在隐忧。

他表示：“这确实是向前迈出的一大步，但仍存在一些不够成熟之处。该模型在推理任务上表现出色，但其他方面的能力有所牺牲。”