NVIDIA 正式推出 Cosmos 3:面向物理 AI 的开放前沿基础模型

作者

新闻摘要:

  • NVIDIA Cosmos 3 是一款全新且位居排行榜首位的开放物理 AI 基础模型,基于突破性的混合 Transformer 架构所构建,适用于物理 AI 推理、世界仿真和动作生成。
  • Cosmos 3 是全球首款完全开放的全模态模型,具备原生视觉推理和跨文本、图像、视频、环境音和动作的多模态生成功能,可用于前沿的合成数据生成和物理 AI 策略模型开发。
  • NVIDIA 携手多家 AI 实验室和机器人领军企业 —— 包括 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 和 Skild AI —— 共同发起 NVIDIA Cosmos Coalition,旨在推动下一代开放世界模型发展。

NVIDIA GTC 台北 —— NVIDIA 今日推出 NVIDIA Cosmos™ 3,这是一款面向物理 AI 的开放世界基础模型,基于突破性的混合 Transformer (Mixture-of-Transformers) 架构所构建,将视觉推理、世界生成和动作预测集成至单一系统中。

Cosmos 3 是全球首款完全开放的全模态模型,能够以领先的物理精度原生理解并生成文本、图像、视频、环境音和动作,将物理 AI 的训练和评估周期从数月缩短至数天。

NVIDIA 同时宣布成立 NVIDIA Cosmos Coalition,这是世界模型构建者与 AI 开发者的全球协作组织 —— 成员包括 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 和 Skild AI —— 旨在共同推动下一代世界模型发展。

NVIDIA 创始人兼首席执行官黄仁勋表示:“得益于多模态推理语言、视觉和世界模型领域的多项突破,物理 AI 爆发的时代已近在眼前。Cosmos 3 系列开放前沿全模态模型,助力开发者在构建机器人、智能汽车和视觉 AI 方面实现了代际飞跃,使其能够在物理世界中完成感知、推理、规划并采取行动。”

面向物理 AI 的全新架构

Cosmos 3 解决了物理 AI 的一项核心难题:使机器人、智能汽车或视觉智能体能够在训练数据有限和仿真堆栈碎片化的情况下,在现实世界中进行泛化。

该模型的混合 Transformer 架构将推理 Transformer 与专家生成 Transformer 相结合,从而使 Cosmos 3 能够在生成视频和动作轨迹前,完成对对象交互、运动及时空关系的解析。

该模型在最大型的多模态物理 AI 数据集之一上进行训练 —— 包括数十亿条文本、图像、视频、声音和动作轨迹样本 —— 为开发者提供了强大的预训练基础,助力其以更少的数据和更低的训练成本构建物理 AI 系统。

开发者可将 Cosmos 3 用作:

  • 具备跨模态理解和推理的视觉语言模型
  • 可用于模拟物理环境并预测未来世界状态以进行训练和评估的世界模型或视频基础模型
  • 帮助训练机器人执行特定任务的世界动作模型的骨干网络

Cosmos 3 系列模型在物理 AI 基准测试中取得了领先的结果。在开放模型中,它在 Artificial AnalysisPhysics-IQPAI-BenchR-Bench 的世界生成精确性方面、RoboLabRoboArena 的动作策略方面以及 VANTAGE-BenchTAR 排行榜的视觉理解方面均位居榜首。

Cosmos 3 系列为开发者在物理 AI 开发的不同阶段提供多种选择:

  • Cosmos 3 Super 适用于需要极高物理仿真精度及生成质量的机器人与智能汽车模型的后训练阶段。
  • Cosmos 3 Nano 可在极短时间内完成高质量视频生成和动作推理。
  • Cosmos 3 Edge 即将上线,支持实时边缘推理。

Cosmos Coalition 加速开放世界模型开发

Cosmos Coalition 是世界模型构建者、AI 开发者与物理 AI 领导者之间的全球协作组织,旨在推动各行各业的开放世界模型发展,使成员能够贡献模型、研究和评估技术,同时使用 Cosmos 3 技术、训练工具和 NVIDIA DGX™ Cloud 基础设施进行大规模训练。

创始联盟成员包括 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 和 Skild AI。通过在开放环境中构建并在共享生态系统中做出贡献,该联盟旨在加速技术创新、提升兼容性,并推动物理 AI 实现更快发展。

开发者基于 Cosmos 进行构建

Cosmos 平台为 NVIDIA 的物理 AI 堆栈提供支持,加速各行各业的训练和评估工作流。该平台现已包含面向机器人、物理学、人体运动、辅助驾驶、仓库安全和空间推理等领域的数据集,以及多项全新物理 AI 智能体技能,支持神经场景重建、缺陷图像生成与视频增强。

各行各业的物理 AI 开发者正在基于 Cosmos 平台进行构建 —— 在机器人领域包括 Agile Robots、Doosan Robotics、LG Electronics、三星和 Skild AI ;在智能汽车领域包括理想汽车;而在视觉 AI 智能体领域包括 Centific、FogsphereLinker VisionMilestone SystemsYuan,为工业 AI 和智能空间应用提供动力。

可用性

Cosmos 3 Super 和 Cosmos 3 Nano 现已正式推出,用于实时推理的 Cosmos 3 Edge 即将推出。开发者可以在 NVIDIA 官网上体验 Cosmos 3,或从 Hugging Face 下载开放模型,借助 Hugging Face Diffusers 和 GitHub 上的资源定制模型并生成合成数据,并将这些模型部署为 NVIDIA NIM™。

模型构建者和软件提供商可以借助 GitHub 上的物理 AI 智能体技能,通过 BasetenCoreWeave、Microsoft Azure、Nebius、Deep Infra 和 Classmethod 等推理服务和云基础设施合作伙伴,加速访问、定制和部署 Cosmos,以支撑核心推理与合成数据生成工作负载。

敬请观看黄仁勋的主题演讲或访问 NVIDIA GTC 台北了解更多内容,并浏览以下物理 AI 主题会议