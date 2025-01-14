标签
人工智能

世界模型让 AI 学会孩童级重力认知

从外空间鸟瞰地球

就连刚学走路的小孩，都清楚不能把大积木摞在小积木上。机器人呢？并不然。不过这种情况如今终于要改变了。

传统 AI 模型擅长处理文本与数字数据，却难以掌握孩童凭本能就能理解的基础物理知识。为此，英伟达计划通过英伟达 Cosmo 改变这一现状。该全新平台于 2025 年国际消费电子展上正式发布，专门用于教会机器理解物理世界的运行规律。

这项技术以“世界模型”为核心，这类 AI 系统能够构建出关于事物结构、动态变化及因果关系的内部表征。此类模型有望彻底革新机器人与自动驾驶车辆应对现实环境的导航模式，并能为天气预报、医疗等多个领域提供助力。

IBM 欧洲研究院爱尔兰和英国部主任 Juan Bernabé-Moreno 表示：“世界模型从根本上改变了系统感知环境并与环境交互的方式。“这些模型并非简单地将输入映射到输出，而是形成内部表征，捕捉结构、动态和因果关系。它们能更流畅地处理非结构化数据，适应未知情况，并根据较少的直接示例或指令进行推断。”

教机器人玩积木

Cosmos 平台包含多款基础模型，这些模型能够生成基于物理原理的仿真内容，用于 AI 系统的训练。同时该平台还搭载了一系列先进工具，英伟达方面称，借助其 Blackwell 平台，这些工具仅需两周就能完成 2000 万小时视频的数据处理与标注工作，而若采用传统 CPU 来处理这项任务，耗时则会超过三年。

虽然其他 AI 模型会生成文本或图像，但 Cosmos 专注于工业和驾驶环境中基于物理的交互。开发者可利用自有数据对该系统进行定制优化，例如仓库机器人的作业影像、自动驾驶测试的行驶画面等数据皆可运用。该平台已吸引优步等众多合作伙伴入驻，优步认为该平台有望成为其推动自动驾驶技术落地的快捷路径。

英伟达正在通过 Hugging Face 等平台以开放许可的方式发布这些模型。英伟达首席执行官黄仁勋，这有望成为机器人领域的 “ChatGPT 时刻”。他还表示，世界基础模型或将推动物理 AI 走向普及，这与大语言模型革新文本生成技术的历程有着异曲同工之妙。

专注于 AI 平台的 IBM 软件业务产品副总裁 Armand Ruiz 在领英发帖对 Cosmo 项目进行了评价，他将该机器人训练系统称为“技术杰作”。这个开源系统经过 2,000 万小时的真实世界镜头训练，代表英伟达尝试为机器人的运动和交互创建基础模型。

“最棒的是，该项目是开源的！” Ruiz 写道，Cosmos 可以模拟箱子掉入仓库等场景，并支持企业使用自己的数据进行定制训练。该系统可于英伟达的 Isaac 模拟平台配合使用，但其实际性能仍有待测试。

IBM 研究人员将这一理念应用于天气预报领域，推出了 Prithvi-Climate-and-Weather 基础模型。Moreno 表示：“该模型已掌握全球大气系统过程中的物理动力学规律，可用于生成符合物理原理的仿真数据、执行多粒度预测任务，同时还能实现多分辨率降尺度处理。”

已有三家企业率先入局该技术测试场景，分别是优步、机器人制造商 Figure AI 以及自动驾驶技术研发企业 Waabi，这三家企业均已签约并着手应用该技术。此外，该平台配备了开放模型许可证，支持开发者对平台进行定制化改造。

小球在轨道上滚动的三维设计

从虚拟的挫折到现实世界的优雅

Meta 首席 AI 科学家 Yann LeCun 解释说，世界模型是这样一种系统：它会观察自身所处的环境，并结合其现有知识以及可能影响未来结果的未知因素，来预测接下来可能发生的情况。他指出，当前的 AI 语言模型采用的是这种方法的简化版本：它们仅依赖过往信息进行预测，并未考虑不同的可能行动或未知变量。

世界模型能够在实际应用之前模拟各种场景，这可以为企业节省资金，并减少机器人技术方面的事故。

Moreno 表示：“世界模型能够让机器在物理世界中尝试行动之前，先在通常被称为‘数字孪生体’的仿真空间中规划运动轨迹与交互行为。这一特性可大幅减少成本高昂的试错过程，降低安全风险，并加速工业装配、仓储物流或服务型机器人等任务的学习进程。”

Moreno 指出，正是这些仿真原理同样吸引了医学研究者的关注，他们已从中发现了药物研发与疾病治疗领域的应用机遇。

Moreno 说：“在医疗保健领域，世界模型统一了来自多个领域（基因组、蛋白质组、转录组和化学）的数据，以大规模捕捉生物系统的复杂性。“这一整体视角使研究人员和临床医生能够揭示大型生物医学数据集中的隐藏模式，从而实现基因扰动预测、疾病状态分类和治疗反应建模等任务。”

然而，要实现这些雄心勃勃的医疗应用，需要极其庞大的计算资源支持。即便借助专用硬件，训练这类模型仍需海量的处理能力与数据资源。今年，首批 Cosmos 模型将与视频数据处理工具一同登陆英伟达 API 资源库。

对算力的投入有望为各行业打开全新机遇。借助 AI 世界模型，组织能够为自身运营构建虚拟孪生体，在安全落地前对重大变革进行测试验证。这类高精度仿真技术支持企业开展多场景配置试验——无论是规划新的仓储布局，还是在工作流中引入机器人——全程不会对现实业务运营造成干扰。

“传统的生成式 AI 方法通常处理文本或纯数字数据，缺乏对物理对象和力进行推理的能力，”Moreno 说，"通过对现实世界的互动规则进行编码，世界模型可以模拟和预测文本或图像之外的结果。"

