在 NeurIPS 大会上,NVIDIA 推动面向数字与物理 AI 的开源模型发展

NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具,其中包括面向移动出行领域的开源行业级 VLA 推理模型 NVIDIA DRIVE Alpamayo-R1。此外,一项新的独立基准测试认可了 NVIDIA Nemotron 模型及数据集的开放性与透明度。
作者 Bryan Catanzaro

全球研究人员将开源技术作为其工作的基础。为使业界能够获取数字与物理 AI 领域的最新成果,NVIDIA 正进一步扩展其开源 AI 模型、数据集及工具库,这些资源几乎可以应用于所有研究领域。

在全球顶级 AI 会议 NeurIPS 上,NVIDIA 发布了支持科学研究的开放式物理 AI 模型与工具,其中包括面向辅助驾驶的行业级开源 VLA 推理模型 Alpamayo-R1。在数字 AI 领域,NVIDIA 推出了面向语音处理与 AI 安全领域的新模型及数据集。

NVIDIA 研究人员将在本次大会上带来 70 余篇论文、演讲及专题研讨会,分享涵盖 AI 推理、医学研究、智能汽车开发等多个领域的创新项目。

这些举措进一步深化了 NVIDIA 对开源生态的承诺。这一努力获得了独立 AI 基准测试机构 Artificial Analysis 最新“开放性指数” (Openness Index) 的认可。该指数基于模型许可的开放性、数据透明度及技术细节的可用性,将 NVIDIA Nemotron 系列开源技术评为 AI 生态系统中最开放的前沿 AI 开发技术之一。

NVIDIA DRIVE Alpamayo-R1 为辅助驾驶开辟了全新的研究前沿

NVIDIA DRIVE Alpamayo-R1 (AR1) 作为面向辅助驾驶研究的开源 VLA 推理模型,创新性地将思维链 AI 推理与路径规划技术深度融合。该技术对于提升辅助驾驶系统在复杂路况下的安全性以及实现 L4 级自动驾驶至关重要。

此前的辅助驾驶模型在复杂场景下易于出错,例如人流密集的路口、前方车道即将封闭,或者有车辆在自行车道上违规停车。推理能力赋予了辅助驾驶系统类人的“常识”,让它们像人类一样更自然地驾驶。

AR1 通过对场景进行分解并逐步推理来实现这一目标。它会考虑所有可能的轨迹后,结合上下文数据选择最优路线。

举例而言,在行人密集且紧邻自行车道的区域,搭载 AR1 的智能汽车可通过思维链进行推理:首先采集行驶路径数据,同时整合推理轨迹 (即系统对采取特定操作的解释说明),继而利用这些信息规划后续行驶路线,例如主动避让自行车道或为潜在横穿马路的行人提前减速或停车。

AR1 基于 NVIDIA Cosmos Reason 构建的开放式基础架构,使研究人员能够根据自身非商业用途需求定制模型,包括用于基准测试与开发实验性辅助驾驶应用。

对于经过后训练的 AR1,强化学习表现出了显著效果,研究人员观察到,相比预训练模型,AR1 的推理能力有了大幅提升。

NVIDIA DRIVE Alpamayo-R1 将在 GitHub 和 Hugging Face 平台开放获取,以及用于训练和评估该模型的数据子集已收录于 NVIDIA 物理 AI 开放数据集。NVIDIA 同时发布了用于评估 AR1 的开源框架 AlpaSim

深入了解用于辅助驾驶的 VLA 推理模型 (中文字幕)。

为任意物理 AI 应用场景定制 NVIDIA Cosmos

开发者现可通过 Cosmos Cookbook 中的分步指南,快速入门推理示例和高级后训练工作流,学习如何使用和后训练基于 Cosmos 的模型。这本面向物理 AI 开发者的综合指南涵盖了 AI 开发的全流程,包括数据整理、合成数据生成及模型评估。

Cosmos 支持的应用场景极为丰富。NVIDIA 的最新案例包括:

  • LidarGen,为辅助驾驶仿真生成激光雷达数据的世界模型。
  • Omniverse NuRec Fixer,一款面向辅助驾驶与机器人仿真的模型,可依托 NVIDIA Cosmos Predict,近乎即时的修复神经重建数据中的瑕疵,如新视角或噪声数据导致的模糊与区域缺失问题。
  • Cosmos Policy,将大型预训练视频模型转化为稳健机器人策略的框架——该策略可指导机器人行为的一系列规则。
  • ProtoMotions3,基于 NVIDIA Newton 和 Isaac Lab 构建的开源 GPU 加速框架,用于训练物理仿真的数字人与人形机器人,其逼真场景由 Cosmos 世界基础模型 (WFM) 生成。
此为基于 Cosmos 构建的 LidarGen 模型输出示例。上方图片展示了叠加生成激光雷达数据的输入数据。中间图像呈现了生成与真实激光雷达距离图对比。左下角为真实激光雷达点云,右下角则展示了由 LidarGen 生成的点云。

策略模型可在 NVIDIA Isaac Lab 和 Isaac Sim 中进行训练,随后可利用策略模型生成的数据对适用于机器人的 NVIDIA GR00T N 系列模型进行后训练。

在 Isaac Sim 中使用 ProtoMotions3 训练的人形机器人策略,其 3D 背景场景由 Lyra 基于 Cosmos 世界基础模型生成。

NVIDIA 生态合作伙伴正利用 Cosmos 世界基础模型开发其最新技术。

辅助驾驶开发商 Voxel51 正为 Cosmos Cookbook 贡献模型实施方案。物理 AI 开发商 1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI 和 X-Humanoid 均在其最新物理 AI 应用中采用世界基础模型技术。苏黎世联邦理工学院的研究团队将在 NeurIPS 会议上发表论文,重点展示如何利用 Cosmos 模型创建逼真且连贯的 3D 场景。

NVIDIA Nemotron 新功能扩充数字 AI 开发工具集

NVIDIA 同步发布了全新的多说话人语音 AI 模型、一款具备推理能力的新模型,以及用于 AI 安全的数据集,并推出可生成高质量合成数据集的开源工具,以支持强化学习和特定领域模型定制。这些工具包括:

  • MultiTalker Parakeet:一款面向流媒体音频的多说话人自动语音识别模型,即使在对话重叠或语速较快的对话中,也能准确识别不同说话人的内容。
  • Sortformer:一款先进的实时多说话人分割模型,能够在音频流精准识别不同说话者的语音片段 (该过程称为声纹分割)。
  • Nemotron 内容安全推理模型:一个基于逻辑推理的 AI 安全模型,能够跨领域动态执行定制化策略。
  • Nemotron 内容安全音频数据集:一个合成数据集,可用于训练模型以识别不安全音频内容,从而助力开发能同时适用于文本和音频的跨模态护栏。
  • NeMo Gym:一个用于加速和简化大语言模型训练中强化学习环境开发的开源库。该库还提供了不断丰富的即用型训练环境集合,以支持基于可验证奖励的强化学习 (RLVR) 训练方法。
  • NeMo 数据设计库:该库现已基于 Apache 2.0 协议开源,提供了一套端到端工具集,用于生成、验证并优化生成式 AI 开发所需的高质量合成数据集,还涵盖领域特定模型定制与评估功能。

采用 NVIDIA Nemotron 和 NeMo 工具构建安全、专业化的代理式 AI 的 NVIDIA 生态系统合作伙伴包括 CrowdStrike、Palantir 和 ServiceNow。

NVIDIA 研究中心推动语言 AI 创新

在 NeurIPS 大会上发布了数十篇 NVIDIA 研究论文,以下几篇是推进语言模型发展的重点研究成果:

查看 NeurIPS 完整活动列表,会议将于 12 月 7 日 (周日) 在圣地亚哥举行。 

请参阅软件产品信息相关通知