Cosmos 3 如何帮助物理 AI 在行动前进行思考

现实世界始终处于运动之中。为了实现自主运行，物理 AI 系统 —— 包括机器人、智能汽车 (AV) 和智能空间 —— 不仅需要理解它们所看到的内容以及导致这种情况发生的原因，还需要预测接下来可能发生的情况。

在仓库中，机器人可能会遇到从未见过的物体摆放方式；在道路上，智能汽车可能需要对行人突然从停放的车辆间穿出的状况做出反应；在工厂中，安全系统必须预测叉车将前往何处，而不仅仅是检测叉车的位置。

在现实世界中捕捉和重现这些场景既耗时又昂贵，而且往往无法大规模重复。

NVIDIA Cosmos 3 正是为打破这一循环而构建。这款全新世界基础模型在 COMPUTEX 期间的 NVIDIA GTC 台北大会上发布，它将视觉推理和跨文本、视频、图像、环境音和动作的多模态生成功能整合至单一模型中，帮助开发者创建具备物理语境的世界数据。

详细了解 Cosmos 3 采用的混合 Transformer 架构，该架构使推理模块能够首先解析场景中正在发生的情况，随后利用生成模块将该语境用于创建符合物理规律的输出 —— 涵盖从合成视频到机器人任务数据。

为现实世界的机器人任务生成动作数据

Cosmos 3 是一个在多样化数据上训练的通用基础模型，能够广泛理解场景、运动和机器人动作之间的关系。它是一个具备原生动作生成功能的全模态模型，能够生成描述机器人应该如何移动以完成任务的数字化的动作数据例如关节角度、夹爪位置和轨迹点。

为了进行学习，机器人仅靠场景图像或视频远远不够。以拾取和放置任务为例，机器人还需要动作信号来指导它们如何在环境中接近、抓取、移动和放置物体等操作。开发者可以对 Cosmos 3 进行微调，使其机器人能够适配特定机器人形态、摄像头布局、工作空间或任务。

NVIDIA GEAR 团队正在使用 Cosmos 3 开发视频动作模型，帮助具身智能体学习如何在游戏、仿真和现实世界机器人环境中进行推理、移动和行动。

Agile Robots 正在打造能够自主、精准、高效地完成工业任务的人形机器人和 Thor 3 或 FR3 等其他形态机器人。该公司正在使用 Cosmos 3 为策略开发，生成基于动作条件的机器人数据，从而大规模构建多样化的任务轨迹。

提示词：用双臂拾取芯电线并将其放入箱中。

Cosmos 3 能够对整个场景进行推理，识别哪些物体正在移动、路径可能在哪里交叉以及未来可能出现什么状态。随后，它可以生成密集的字幕、预测场景变化或场景的变体，帮助开发者在工业和基础设施环境中将视觉 AI 智能体的理解、预测和警报连接起来。

使用 Cosmos 3 进行推理的机器人动作规划追踪。

对于交通系统、工厂、仓库和公共空间而言，这意味着视频系统可以帮助解析随时间推移的活动情况、发现异常，并为操作人员提供更丰富背景信息，帮助他们了解有关复杂环境中发生情况。

Linker Vision 使用由 Cosmos 提供支持的视觉 AI 来优化城市运营。

Linker Vision 使用 NVIDIA 的物理 AI 和数字孪生技术构建智慧城市和工业解决方案。作为其工作流的一部分，他们正使用 Cosmos 的视觉语言推理功能来分析实时摄像头流、理解空间语境、提取有价值的洞察，并对数千个数据源执行根本原因分析。

碰撞和长尾边缘案例是为人形机器人、机械臂乃至手术机器人适应现实世界的重要例子之一，但这类情况难以安全、重复并大规模地进行采集。

Cosmos 3 作为视频基础模型，能够助力生成物理上可信的视频序列，用于教授现实世界如何随时间变化。

图像到视频提示：一场高速赛车活动中，一辆赛车驶过多个弯道。

对于物理 AI 开发者而言，这些生成的示例可以与现实世界中的驾驶数据相结合，支持合成数据工作流和未来状态预测——即使在逐帧变化的条件下也不例外。

开发者可以在 NVIDIA 官网上体验 Cosmos 3、从 Hugging Face 下载开放模型、借助 GitHub 上的资源定制模型并生成合成数据，并通过 NVIDIA NIM 进行部署。

借助 Linux 基金会提供的 OpenMDW 1.1 许可证，开发者可以在单一的、以模型为中心的许可证下，在物理 AI 工作流中使用 Cosmos 模型素材。该许可证使训练、修改、贡献、重新分发和部署资源 (包括权重、架构、文档、数据集、基准测试和代码) 变得更加容易。

敬请观看 NVIDIA 创始人兼首席执行官黄仁勋在 GTC 台北的主题演讲，并浏览以下物理 AI 主题会议。

了解详情，请参阅软件产品信息注意事项。