NVIDIA 宣布推出 Cosmos 世界基础模型和物理 AI 数据工具的重大更新

• 新模型可实现物理 AI 的预测、可控世界生成和推理
• 两款全新Blueprint为机器人和自动驾驶汽车后训练提供海量物理 AI 合成数据生成技术
• 1X、Agility Robotics、Figure AI、Skild AI 是最早采用该技术的公司
作者 英伟达中国

美国加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2025 年 3 月 18日 ——NVIDIA 今日宣布推出全新 NVIDIA Cosmos™ 世界基础模型 (WFM) 的重大更新,该模型引入了开放式、可完全定制的物理 AI 开发推理模型,让开发者以前所未有的方式控制世界生成。

NVIDIA 还推出了两款由 NVIDIA Omniverse™ 和 Cosmos 平台提供支持的新蓝图,为开发者提供用于机器人和自动驾驶汽车后训练的大规模可控合成数据生成引擎。

1X、Agility Robotics、Figure AI、Foretellix、Skild AI 和 Uber 是首批采用 Cosmos 的企业,可更快、更大规模地为物理 AI 生成更丰富的训练数据。

“正如大语言模型改变了生成式和代理式 AI,Cosmos 世界基础模型是物理 AI 的一项重大突破,”NVIDIA 创始人兼 CEO 黄仁勋表示。 “Cosmos 为物理 AI 带来了一个开放式、可完全定制的推理模型,为机器人和物理工业领域的突破性发展带来了机遇。”

用于合成数据生成的 Cosmos® Transfer

Cosmos Transfer WFM 能够吸收结构化视频输入,如分割图、深度图、激光雷达扫描、姿态估计图和轨迹图等,以生成可控、逼真的视频输出。 

Cosmos Transfer 可简化感知 AI 训练,将 Omniverse 中创建的 3D 仿真或真值转换为逼真视频,用于大规模可控合成数据生成。 

Agility Robotics 将是最早采用 Cosmos Transfer 和 Omniverse 进行大规模合成数据生成,用以训练其机器人模型的公司之一。 

Agility Robotics 首席技术官 Pras Velagapudi 表示:“Cosmos 为我们提供了一个在真实世界可采集的数据之外,扩展逼真训练数据的机会。我们很期待看到使用新平台解锁的新性能,同时充分利用我们已有的基于物理学的仿真数据。”

用于自动驾驶汽车仿真的 NVIDIA® Omniverse Blueprint借助 Cosmos Transfer 放大基于物理传感器数据的变化。 借助该蓝图,Foretellix 可以通过为不同驾驶数据集改变天气和光照等条件来丰富行为场景。 Parallel Domain 也正在使用该蓝图 将类似的变更应用于他们的传感器仿真。 

用于合成操作运动生成的 NVIDIA GR00T Blueprint 结合了 Omniverse 和 Cosmos Transfer,可大规模生成多样化数据集,利用 OpenUSD 驱动的仿真,将数据采集和增强时间从数天缩短到数小时。

Cosmos Predict 用于智能世界生成

一月在 CES 上宣布的 Cosmos Predict WFM 能够通过文本、图像和视频等多模态输入生成虚拟世界状态。 新的 Cosmos Predict 模型将支持多帧生成,在给定开始和结束输入图像的情况下,预测中间行为或运动轨迹。 这些模型专为后训练而打造,可使用 NVIDIA 开放的物理 AI 数据集进行定制。

借助 NVIDIA Grace Blackwell® NVL72 系统及其庞大的 NVIDIA NVLink™ 域的推理计算能力,开发者可以实现实时世界生成。 

1X 正在使用 Cosmos Predict 和 Cosmos Transfer 来训练其新型人形机器人 NEO Gamma。 机器人大脑开发商 Skild AI 正在利用 Cosmos Transfer 增强其机器人的合成数据集。 此外,Nexar 和 Oxa 正在使用 Cosmos Predict 来升级其自动驾驶系统。

用于物理 AI 的多模态推理 

Cosmos Reason 是一个开放式、可完全定制的 WFM,具有时空感知能力,它使用思维链推理来理解视频数据,并能够预测交互结果,如一个人走进人行道或一个盒子从架子上掉下来。

开发者可以使用 Cosmos Reason 来提升物理 AI 数据标注和管理,增强现有世界基础模型或创建新的视觉语言动作模型。 他们还可以对其进行后训练,构建高级规划器,以指导物理 AI 如何完成所需操作。

加速物理 AI 的数据管理和后训练

基于其下游任务,开发者可以在 NVIDIA DGX™ Cloud 上使用原生 PyTorch 脚本或 NVIDIA NeMo™ 框架对 Cosmos WFM 进行后训练。 

Cosmos 开发者还可以使用 DGX Cloud 上的 NVIDIA NeMo Curator 来加速数据处理和管理。 Linker Vision 和 Milestone Systems 正将其用于管理海量视频数据,训练用于视觉智能体的大视觉语言模型,这些智能体基于 NVIDIA AI Blueprint 进行视频搜索和总结。Virtual Incision 正在探索将其部署在未来的手术机器人中,而 Uber 和 Waabi 正在推动自动驾驶汽车的开发。 

推动负责任的 AI 和内容透明度

根据 NVIDIA 一贯的可信 AI 原则,NVIDIA 在所有 Cosmos WFM 中都采用开放式护栏。 此外,NVIDIA 正在与 Google DeepMind 合作,将 SynthID 集成到水印中,帮助识别 Cosmos WFM NVIDIA NIM™ 微服务的 AI 生成结果。

供货情况

Cosmos WFM 可在 NVIDIA API 目录中预览,现已列入 Google Cloud 上的 Vertex AI Model Garden 中。 Cosmos Predict 和 Cosmos Transfer 在 Hugging FaceGitHub 上公开提供。 Cosmos Reason 开放抢先体验。

了解更多,请观看 NVIDIA GTC 主题演讲,注册参加 NVIDIA 和行业领导者参加的 Cosmos 会议与培训,包括 NVIDIA 生成式 AI 研究副总裁刘洺堉的“Cosmos 世界基础模型简介”。

关于NVIDIA
NVIDIA (NASDAQ: NVDA) 是加速计算领域的全球领导者。