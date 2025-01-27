标签
人工智能

DeepSeek 的推理 AI 展示了经过有效训练的小模型的力量

台北世贸中心夜景

中国初创公司 DeepSeek 推出的 AI 模型 DeepSeek-R1，在上周发布数小时后，迅速登上 AI 开源平台 Hugging Face 上下载量和活跃度最高的 AI 模型排行榜榜首。它还给金融市场带来了冲击，因为它提示投资者重新考虑 NVIDIA 等芯片制造商的估值以及美国 AI 巨头为扩展其 AI 业务而进行的巨额投资。

为何引发如此热议？据该公司介绍，所谓的“推理模型”DeepSeek-R1 是一款数字助理，在某些涉及数学和编码任务的 AI 基准测试中，其表现可与 OpenAI 的 o1 相媲美，但训练时所采用的芯片数量却远远少于后者，且使用成本大约降低了 96%

IBM AI 硬件首席研究科学家兼经理 Kaoutar El Maghraoui 说："DeepSeek 无疑正在重塑 AI 的格局，它以开源的雄心和最先进的创新技术向巨头发起挑战。”

与此同时，TikTok 所属的中国科技巨头字节跳动 (ByteDance) 最近发布了自己的推理智能体 UI-TARS，并声称该智能体在某些基准测试中表现优于 OpenAI 的 GPT-4o、Anthropic 的 Claude 和谷歌的 Gemini。字节跳动的智能体可以读取图形界面、进行推理，并自主采取逐步行动。

从初创公司到老牌巨头，中国 AI 公司似乎正在缩小与美国竞争对手的差距，这在很大程度上要归功于他们愿意使用开源代码或与其他企业和软件开发人员共享底层软件代码。“DeepSeek 已经能够在社区中推广一些非常强大的模型，”IBM Granite 模型的高级技术产品经理 Abraham Daniels 说道。DeepSeek-R1 根据 MIT 许可证在 Hugging Face 上推出，允许无限制地用于商业用途。“DeepSeek 可以真正加速 AI 的民主化，”他说道。

去年夏天，中国公司快手发布了一款视频生成工具，该工具类似于 OpenAI 的 Sora，但一开始就向公众开放。Sora 于去年 2 月亮相，但直到 12 月才正式发布，而且只有订阅了 ChatGPT Pro 的用户才能使用其所有功能。Hugging Face 的开发人员还从中国科技巨头腾讯和阿里巴巴那里抢到了新的开源模型。虽然 Meta 已对其 Llama 模型进行开源，但 OpenAI 和 Google 均在其模型开发中采用了闭源为主的方法。

除了开源带来的红利，DeepSeek 的工程师们训练其系统时，所使用的高度专业化 NVIDIA 芯片数量也仅占美国竞争对手所用的一小部分。例如，DeepSeek 的工程师说，他们只需要 2,000 个 GPU（图形处理单元）或芯片，就能训练出 DeepSeek-V3 模型，这一数据来自他们随模型发布的一篇研究论文

推理模型

“真正令人印象深刻的是 DeepSeek 模型的推理能力，”IBM 院士 Kush Varshney 说道。推理模型本质上是对自我的验证或检查，代表一种“元认知”或“对思考本身的思考”，Varshney 表示。“我们现在开始将智慧融入这些模型，这是重要的一步。”

去年 9 月，当 OpenAI 预览其 o1 推理模型时，推理模型成为了热门话题。与以往只给出答案而不解释推理过程的 AI 模型不同，推理模型将复杂的问题分成几个步骤来解决。推理模型可能需要多花几秒或几分钟来回答问题，因为它们会逐步或以“思维链”方式反思自己的分析。

强化学习

DeepSeek-R1 将思维链推理与强化学习结合在一起，自主智能体可以在没有人类用户任何指令的情况下，通过试错学会执行任务。强化学习不同于较常用的学习形式，比如监督学习，它使用手动标记的数据来生成预测或分类，而无监督学习则从未标记数据中发现和学习隐藏模式。

DeepSeek-R1 对“模型需要通过正确或错误行为的标注样本进行训练，或通过从隐藏模式中提取信息来提升推理能力”这一固有假设提出质疑，密歇根州立大学的博士研究生 Yihua Zhang 表示，他曾撰写了数十篇有关机器学习的论文。“关键假设既简单又大胆，”Zhang 说，“我们能否仅仅奖励模型的正确做法，让它自己发现最佳的思考方式？”

Zhang 表示，他和其他人发现，对于像 DeepSeek 的语言模型这样的大型语言模型的大规模训练，有一点特别值得注意，即“模型开始出现真正的顿悟时刻，它会后退一步，发现错误并自我纠正。”

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中，发现专家精选的有关 AI、云等的洞察分析和新闻。 

成本计算

DeepSeek 之所以受欢迎，部分源于其低廉的价格。根据该公司发布的技术报告，在圣诞节当天发布的 DeepSeek-V3 的训练成本为 550 万美元，对于想要尝试的开发者而言，其使用成本也更为低廉。“就模型成本以及训练模型花费的时间而言，他们的工作确实令人印象深刻，”IBM 杰出工程师 Chris Hay 表示。

不过，IBM 研究院 Granite 技术产品管理总监 Kate Soule 则认为，低廉的价格可能并不是全部原因。她表示，550 万美元成本“仅占所需计算的一小部分”。它不包括公司即便使用开源模型仍保持专有的成本细节，比如“强化学习、数据消融和超参数搜索的计算成本”，Soule 说道。

然而，毫无疑问，DeepSeek 通过使用混合专家 (MoE) 架构实现了更高的成本效率，这种架构的训练所需的资源大大降低。MoE 架构将 AI 模型划分为单独的子网络（或“专家”），每个子网络专门研究输入数据的一个子集。该模型仅激活给定任务所需的特定专家，而不是激活整个神经网络。因此，MoE 架构大大降低了预训练期间的计算成本，并在推理时实现了更快的性能。全球各地的多家公司，包括法国 AI 公司 Mistral 和 IBM，在过去的一年里普及了 MoE 架构，并通过将 MoE 和开源结合起来提高了效率。

在 IBM 的一系列开源 Granite 模型（使用 MoE 架构开发）中，企业能够以很少的成本实现前沿模型性能，因为他们可以调整大型预训练模型以适应其特定应用或用例，从而有效地创建规模更小的适用模型。将强大的功能打包到较小的模型中意味着这些模型可用于在边缘运行的智能手机和其他移动设备，如车载计算机或工厂车间的智能传感器。

这种将较大的模型提炼成资源密集度较低的较小模型的过程，也对 DeepSeek 的成功做出了贡献。除了其旗舰 R1 模型发布外，这家中国初创公司还推出了一系列更小巧、专用于特定任务的模型。有趣的是，他们发现，与从一开始就对小模型进行强化学习相比，将大模型提炼成小模型的推理效果更好。

全球性 AI 洗牌？

当这些中国新模型在某些基准测试中与老牌竞争对手匹敌甚至超越它们时，这些新模型将如何影响全球 AI 环境？“这不仅仅是基准测试中的原始性能，”El Maghraoui 说。“问题在于是否以安全且合乎道德的方式对这些模型进行端到端整合。”因此，El Maghraoui 表示，现在判断 DeepSeek-R1 和其他产品是否会“改变人与人之间的互动、科技和企业应用”还为时过早。

最终，“开发人员的采用率将决定 DeepSeek 模型的受欢迎程度，”Daniels 说道。此外，他说，“观察他们为这些模型挖掘出怎样的用例，也会非常有趣“。

正如 IBM 的 Varshney 所认为的那样，在这场全球 AI 竞赛中，地缘政治差异也可能没有人们想象的那么重要。他说：“一旦模型开源后，它来自哪里从许多方面来说都不再重要了。”

立即开始在 IBM Watsonx.ai 上使用 DeepSeek。在本教程中，了解如何使用 watsonx.ai 安全地部署 DeepSeek-R1 的提炼变体进行推理。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。
观看 Mixture of Experts 所有剧集

资源

实现投资回报率：您企业中的 AI 智能体

与 IBM 携手参与网络研讨会，在此期间我们将展示如何通过智能体 AI 计划实现真正的投资回报率，并提供跨行业、用例的示例，甚至还有 IBM 自身的成功案例。
2024 年 AI 实际应用

我们对 2,000 家组织进行了调查，旨在了解他们的 AI 计划，以发现哪些方法有效、哪些方法无效，以及如何才能取得领先。
从推行 AI 项目到实现盈利：agentic AI 如何维持财务回报

了解组织如何从分散的 AI 试点，转向在核心业务中利用 AI 推动转型。

提升你的 AI 专业知识

立即购买单用户或多用户订阅，即可访问我们完整的包含 100 多个在线课程的目录，以低廉的价格扩展您的技能。
深入了解 IBM Granite

IBM® Granite® 是一系列开放、高性能且值得信赖的 AI 模型，专为企业量身定制，并经过优化以扩展您的 AI 应用程序。深入了解语言、代码、时间序列和防护措施选项。
IBM AI Academy

本课程由 IBM 资深思想领袖带领，旨在帮助企业领导者获得所需的知识，以便划分可以推动增长的 AI 投资的优先级。
2024 年 AI 实际应用

我们对 2,000 家组织进行了调查，旨在了解他们的 AI 计划，以发现哪些方法有效、哪些方法无效，以及如何才能取得领先。
2025 年 CEO 指南：加速业务增长的 5 大思维转变

激活这五种思维跃迁，以消除不确定性，推动业务重塑，并利用智能体式 AI 促进增长。
让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。
解锁生成式 AI + ML 的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。
树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。
相关解决方案
IBM® watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai，可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据，即可在很短的时间内构建 AI 应用程序。

 深入了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的 AI 专业知识和解决方案组合，让 AI 在您的业务中发挥作用。

 深入了解人工智能解决方案
人工智能 (AI) 咨询服务

IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。

 深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK，生成功能强大的 AI 解决方案。

 深入了解 watsonx.ai 预约实时演示