NVIDIA 在本周美国田纳西州举办的国际计算机视觉与模式识别会议 (CVPR) 上荣获“端到端辅助驾驶”赛道冠军。这一消息是在“自主系统具身智能研讨会”上宣布的。
这标志着 NVIDIA 连续第二年在“大规模端到端驾驶”类别中荣登榜首,也是连续第三年在 CVPR 上获得挑战赛大奖。
今年挑战赛的主题是“实现通用的具身系统”——基于数据驱动的非反应式辅助驾驶仿真框架 NAVSIM v2。
本次挑战赛为研究人员提供了一个探索应对突发情况方法的机会,使他们不再局限于仅使用真实的人类驾驶数据,从而加速开发更智能、更安全的智能汽车。
生成安全、自适应的驾驶轨迹
本次挑战赛参赛者的任务是在半反应堆仿真中根据多传感器数据生成驾驶轨迹,测试车辆的计划在开始时是固定不变的,但交通背景会动态变化。
参赛作品采用扩展预测驾驶员模型评分进行评估,该评分可衡量现实世界和合成场景中的安全性、舒适性、合规性和泛化性,从而突破稳健且可泛化的辅助驾驶研究界限。
NVIDIA 辅助驾驶应用研究团队的关键创新是泛化轨迹评分 (GTRS) 方法,该方法可生成各种轨迹,并逐步筛选出最佳轨迹。

GTRS 引入了涵盖各种情况的粗略轨迹集和适用于安全关键情况的细粒度轨迹集的组合,这些轨迹集使用基于环境的扩散策略创建。GTRS 使用从依赖感知的指标中提炼出来的 Transformer 解码器,重点关注安全性、舒适性和交通规则合规性。该解码器通过捕捉相似轨迹之间细微但关键的差异,逐渐筛选出最具可能性的候选轨迹。
事实证明,该系统能够很好地适用于各种场景,在具有挑战性的基准测试中获得了优异的结果,并能够在各种富有挑战性的驾驶条件下实现可靠的自适应轨迹选择。
NVIDIA 在 CVPR 会议中的汽车领域研究成果
NVIDIA 在 CVPR 2025 上提交了 60 多篇论文,涵盖汽车、医疗、机器人等领域。
在汽车领域,NVIDIA 研究人员正在通过感知、规划和数据生成方面的创新来推动物理 AI 的发展。今年,有三篇 NVIDIA 论文获得了最佳论文奖提名:FoundationStereo、Zero-Shot Monocular Scene Flow 和 Difix3D+。
以下 NVIDIA 论文展示了在立体深度估计、单目运动理解、3D 重建、闭环规划、视觉语言建模和生成式仿真方面取得的突破性进展,所有这些对于构建更安全、更泛化的辅助驾驶都非常重要:
- DiffusionRenderer:基于视频扩散模型的神经逆向渲染和正向渲染 (在此博客中阅读更多内容)
- FoundationStereo:零样本立体匹配(获得最佳论文提名)
- 实际场景零样本单目场景流预测(获得最佳论文提名)
- Diffix3D+:使用单步扩散模型改进 3D 重建(获得最佳论文提名)
- 3DGUT:在高斯分裂中启用失真摄像头和二次光线
- 标记化交通模型的闭环监督式微调
- 零样本 4D 激光雷达全景分割
- NVILA:高效前沿视觉语言模型
- RADIO Amplified:改进聚合视觉基础模型的基准
- OmniDrive:借助反事实推理实现辅助驾驶的整体视觉语言数据集
探索 CVPR 上的汽车研讨会和教程,包括:
- 数据驱动型辅助驾驶仿真研讨会,由 NVIDIA 辅助驾驶研究高级总监 Marco Pavone 和 NVIDIA AI 研究副总裁 Sanja Fidler 主讲
- 辅助驾驶研讨会,由 NVIDIA 高级研究经理 Laura Leal-Taixe 主讲
- 利用基础模型理解开放世界 3D 场景研讨会,由 Leal-Taixe 主讲
- 面向所有领域的安全 AI,由 NVIDIA 辅助驾驶应用研究总监 Jose Alvarez 主讲
- 基于 V2X 的协作式辅助驾驶基础模型研讨会,由 Pavone 和 Leal-Taixe 主讲
- 多智能体具身智能系统迎接生成式 AI 时代研讨会,由 Pavone 主讲
- 计算机视觉中的 LatinX 研讨会,由 Leal-Taixe 主讲
- 探索新一代数据研讨会,由Alvarez 主讲
- 基于 GPU 的全栈深度学习和基础模型加速,由 NVIDIA 主导
- 通过基础模型实现连续数据循环,由 NVIDIA 主导
- 辅助驾驶基础模型蒸馏,由 NVIDIA 主导
探索将在 CVPR 上发表的 NVIDIA 研究论文,并观看 NVIDIA 创始人兼首席执行官黄仁勋在 NVIDIA GTC 巴黎上的主题演讲。
详细了解 NVIDIA Research,NVIDIA Research 团队在全球拥有数百名科学家和工程师,专注于 AI、计算机图形学、计算机视觉、辅助驾驶和机器人等领域的研究。
注:上面的精选图片展示了智能汽车如何使用 GTRS 模型调整其轨迹,以在动态交通的城市环境中导航。