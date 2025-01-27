中国初创公司 DeepSeek 推出的 AI 模型 DeepSeek-R1，在上周发布数小时后，迅速登上 AI 开源平台 Hugging Face 上下载量和活跃度最高的 AI 模型排行榜榜首。它还给金融市场带来了冲击，因为它提示投资者重新考虑 NVIDIA 等芯片制造商的估值以及美国 AI 巨头为扩展其 AI 业务而进行的巨额投资。

为何引发如此热议？据该公司介绍，所谓的“推理模型”DeepSeek-R1 是一款数字助理，在某些涉及数学和编码任务的 AI 基准测试中，其表现可与 OpenAI 的 o1 相媲美，但训练时所采用的芯片数量却远远少于后者，且使用成本大约降低了 96%。

IBM AI 硬件首席研究科学家兼经理 Kaoutar El Maghraoui 说："DeepSeek 无疑正在重塑 AI 的格局，它以开源的雄心和最先进的创新技术向巨头发起挑战。”

与此同时，TikTok 所属的中国科技巨头字节跳动 (ByteDance) 最近发布了自己的推理智能体 UI-TARS，并声称该智能体在某些基准测试中表现优于 OpenAI 的 GPT-4o、Anthropic 的 Claude 和谷歌的 Gemini。字节跳动的智能体可以读取图形界面、进行推理，并自主采取逐步行动。

从初创公司到老牌巨头，中国 AI 公司似乎正在缩小与美国竞争对手的差距，这在很大程度上要归功于他们愿意使用开源代码或与其他企业和软件开发人员共享底层软件代码。“DeepSeek 已经能够在社区中推广一些非常强大的模型，”IBM Granite 模型的高级技术产品经理 Abraham Daniels 说道。DeepSeek-R1 根据 MIT 许可证在 Hugging Face 上推出，允许无限制地用于商业用途。“DeepSeek 可以真正加速 AI 的民主化，”他说道。

去年夏天，中国公司快手发布了一款视频生成工具，该工具类似于 OpenAI 的 Sora，但一开始就向公众开放。Sora 于去年 2 月亮相，但直到 12 月才正式发布，而且只有订阅了 ChatGPT Pro 的用户才能使用其所有功能。Hugging Face 的开发人员还从中国科技巨头腾讯和阿里巴巴那里抢到了新的开源模型。虽然 Meta 已对其 Llama 模型进行开源，但 OpenAI 和 Google 均在其模型开发中采用了闭源为主的方法。

除了开源带来的红利，DeepSeek 的工程师们训练其系统时，所使用的高度专业化 NVIDIA 芯片数量也仅占美国竞争对手所用的一小部分。例如，DeepSeek 的工程师说，他们只需要 2,000 个 GPU（图形处理单元）或芯片，就能训练出 DeepSeek-V3 模型，这一数据来自他们随模型发布的一篇研究论文。