NVIDIA 研究中心在高级抓取、更智能辅助驾驶及大规模智能体训练领域取得新突破

衡量机器人夹爪是否真正实用，关键不在于它能否抓起某个特定物体，而在于它能否使用从未接触过的工具，连续抓取多个物体。

评估辅助驾驶系统是否安全可靠，不仅在于它能否对场景做出分析推理，更在于它能否在车辆实际搭载的硬件上足够快地作出响应。

而要让虚拟智能体真正具备落地能力，需要在进入现实世界之前，让它尽可能多地经历各种不同环境的历练。

在今年的国际计算机视觉与模式识别大会 (CVPR) 上，NVIDIA 研究中心发表了三篇论文，分别针对上述三大挑战提出了解决方案。这三项研究揭示出一个共同理念：大规模训练是打造适用于不同应用且具备泛化能力的关键。

这三篇论文聚焦物理 AI 研究中的不同技术瓶颈：

GraspGen-X：首个面向零样本抓取的基础模型，基于数十亿次仿真抓取训练而成，可适配任意类型的夹爪。
LCDrive：推出了一种全新模型，用紧凑的潜在表征替代高成本的文本推理，使智能汽车能够在嵌入式硬件上实现更快的思考与决策。
NitroGen：一种游戏 AI 通用基础模型，基于 NVIDIA Isaac GR00T 机器人基础模型架构，在虚拟环境中通过数万小时的交互数据，助力高效训练具身智能。

此外，NVIDIA 还在 CVPR 上发布了全新的物理 AI 智能体技能 (Agent Skills)，助力研究人员和开发者加速开发智能汽车、机器人及视觉 AI 系统。

值得一提的是，NitroGen 与 NVIDIA 的另一篇论文 PixelDIT，双双入围本届大会最佳论文候选名单。4,000 余篇入选论文中，仅有 15 篇获得这一殊荣。

首个通用抓取基础模型问世

当前大多数用于机器人抓取的 AI 系统都是“专才”。

为两指夹爪训练的视觉-语言-动作策略，只能学会用这两根手指完成抓取；而为灵巧抓取定制的策略，也仅适用于训练时所用的特定多指夹爪。每更换一种新的夹爪形态，整个流程几乎都要推倒重来——重新采集训练数据、微调模型并完成验证。受限于此，多数机器人公司往往只能选定一款夹爪，完成针对性训练后便一直沿用下去。

GraspGen-X 正是为打破这一瓶颈而生的首个通用抓取基础模型。

正如大语言模型无需重新训练即可将语言理解能力应用至新任务一样，GraspGen-X 也能将其对几何结构与接触关系的理解，直接应用于任何未曾见过的机器人夹爪。只需输入新夹爪的几何参数和一个完全陌生的目标物体，该模型便能生成可靠的抓取位姿方案，使机器人完成抓取动作。

为实现这一目标，研究人员构建了一个在现实世界中无法大规模采集的数据集：他们生成了 20 亿次的仿真抓取数据，涵盖数千种物体形状及合成夹爪配置，覆盖了实际部署机器人可能遇到的各类形态。

该基础模型让机器人开发者无需为每种夹爪单独训练，并且开箱即用即可支持多款常用夹爪。此外，GraspGen-X 还可与全新 CUDA 加速运动规划库 curoboV2 协同使用，可在未知环境中执行这些抓取位姿。

在 GraspGen 的研究基础上，另一篇发表于 ICRA 2026 的论文 Grasp-MPC 进一步推动了技术落地：实现了从抓取生成到闭环抓取执行的跨越。

让智能汽车“思考”得更快

近年来，研究人员发现，让 AI 学会推理——即在给出最终答案前生成中间思考步骤——能显著提升其决策能力。

但对于智能汽车而言，真正的挑战在于如何在车载硬件上高效完成这一推理过程。传统基于文本的思维链推理需要逐字生成内容，每个词都是一个需要时间生成的 Token。而在车载处理器上，Token 数量直接决定了系统响应速度的上限。

LCDrive 通过用压缩的潜在表征替代文本输出，巧妙破解了这一难题。

该系统不再生成人类可读的推理步骤，而是在紧凑的潜在空间中进行“思考”，该空间捕获的是空间信息而非文本生成。该架构在两种思维模式间交替运行：先提出候选动作，再预测执行该动作后的环境状态变化。

随后，系统利用预测出的环境状态来优化下一步行动。这与基于自然语言的推理逻辑本质相同，只是比其更高效。

结果表明：在输出轨迹质量与基于文本的推理相当的情况下，Token 消耗量减少约一半。

该模型基于 NVIDIA Alpamayo 构建，并使用现有车辆数据生成的监督信号进行训练。

在虚拟世界中训练具身智能

Isaac GR00T 是 NVIDIA 面向人形机器人推出的开放基础模型。它遵循一个简单原则：让模型见识足够多样的场景，它就能泛化到未见过的任务中。

NitroGen 将这一理念延伸至虚拟环境中，基于 GR00T 架构，训练一个适用于海量虚拟世界的具身智能基础模型。

电子游戏具备难以凭空打造的优势——拥有结构清晰、场景丰富的虚拟环境，同时设立了明确的目标和清晰的成功标准。它们本身即是高质量、可规模化使用的训练环境。

NitroGen 正是将游戏视为智能体的训练场。经过训练，智能体能处理现实世界或仿真世界的各种场景。例如，当机器人收到“把这些物品收进食品储藏室”这样宽泛的指令时，它能自主完成家务辅助任务。

基于 GR00T 架构，NitroGen 在超过 1,000 款游戏、总计逾 40,000 小时的交互中完成了训练。由此训练出的智能体具备跨环境泛化能力。研究团队在动作角色扮演、平台跳跃、肉鸽 (Roguelike) 及开放世界等多种游戏类型中对该模型进行了评估，验证了其在战斗、导航与探索等玩法上的行为表现。

这项技术未来还可用于打造游戏中更具适应性的非玩家角色 (NPC)、AI 同伴及游戏玩法系统，并实现大规模测试复杂游戏环境。

在数据匮乏的条件下——即智能体仅接触过少量新环境样本时——以 NitroGen 作为起点可带来显著优势，性能较此前最先进方法提升高达 52%。

该模型已开源，可在 GitHub 和 Hugging Face 上获取。

了解更多关于 NVIDIA 在 CVPR 上的最新动态，探索 NVIDIA 研究中心在物理 AI、计算机视觉及自主系统的前沿成果。立即体验 Isaac GR00T 及 NVIDIA 机器人工具。