NVIDIA 研究成果年度盘点：AI 在 3D 模拟、气候科学与音频工程领域取得丰硕成果

技术创新的步伐在过去一年大大加速，其中最引人注目的是 AI。2024 年，NVIDIA Research 实现了诸多无与伦比的重大突破。

NVIDIA Research 汇聚了数百名顶尖智慧精英，他们在 AI 等诸多前沿领域成为推动技术发展的中流砥柱。

在过去的一年里，NVIDIA Research 在电路、内存架构和稀疏算法方面取得了丰硕的研究成果，为未来 GPU 性能的改进奠定了坚实的基础。NVIDIA Research 团队发明了新颖的图形技术，继续提升实时渲染的标准。此外，还开发了提高 AI 能效的新方法——降低能耗、占用更少的 GPU 周期并提供更优的结果。

但今年最激动人心的进展都在生成式 AI 领域。

我们现在不仅可以生成图像和文本，还可以生成 3D 模型、音乐和声音。我们还开发了能够以更好控制生成内容的技术：生成逼真的人形机器人运动，以及生成一系列具有相同主题的图像。

在科学领域，生成式 AI 的应用能够提供比传统数值天气模型更准确的高分辨率天气预报。AI 模型使我们能够准确地预测血糖水平对不同食物的反应。具身生成式 AI 正被用于开发自动驾驶汽车和机器人。

这些仅仅是 NVIDIA 在 2024 年取得的成就。下面，我们将深入介绍 NVIDIA Research 在生成式 AI 领域取得的最突出的成果。当然，我们将继续为 AI 开发新的模型和方法，并期望在 2025 年取得更令人兴奋的成果。

ConsiStory：AI 生成多幅以同一主角为主题的图像

ConsiStory 由 NVIDIA 与特拉维夫大学的研究人员联合开发，能够使多幅以同一主角为主题的图像生成变得更加容易，这对于绘制连环画或开发脚本等叙事型应用场景来说至关重要。

研究人员开发出的这个方法引入了一种名为“主体驱动的共享注意力”的技术，可将生成同一主体图像所需的时间从 13 分钟缩短到 30 秒左右。

阅读 ConsiStory 论文。

Panels of multiple AI-generated images featuring the same character — ConsiStory 能够生成一系列以同一人物为主题的图像。

Edify 3D：生成式 AI 进入新维度

NVIDIA Edify 3D 是一个基础模型，它使开发人员和内容创作者能够快速地生成 3D 物体，并利用这些物体把想法变成原型以及填充虚拟世界。

Edify 3D 可以帮助创作者使用 AI 生成的资产来快速地构思、布局和概念化沉浸式环境。无论是新手还是经验丰富的内容创作者，都可以通过文本和图像提示来利用该模型。该模型现在是用于开发视觉生成式 AI 的 NVIDIA Edify 多模态架构的一部分。

阅读 Edify 3D 论文，在 YouTube 上观看相关视频。

Fugatto：用于音乐、语音等的灵活 AI 声音机器

NVIDIA 的一个研究团队最近发布了 Fugatto。利用输入的文本和音频，这个基础性生成式 AI 模型可以生成或转换由任意的音乐、人声和声音所构成的作品。

例如，它可以根据文本提示创作音乐片段、在现有歌曲中删除或添加乐器、改变人声的口音或情绪，甚至生成从未听过的全新声音。音乐制作人、广告公司、视频游戏开发者或语言学习工具的开发者都有望从中受益。

阅读 Fugatto 论文。

GluFormer：AI 可预测四年后的血糖水平

AI 模型 GluFormer 由魏兹曼科学研究院、初创公司 Pheno.AI 和 NVIDIA 的研究人员共同主导开发，它能够根据过去的血糖监测数据，预测个人未来的血糖水平和其他健康指标。

研究人员表示，在将饮食摄入数据添加到该模型中后，GluFormer 还能预测个人的血糖水平对特定食物和饮食变化的反应，实现精准的营养管理。研究团队在其他 15 个数据集上对 GluFormer 进行了验证，发现它能很好地预测其他群体的健康状况，包括糖尿病前期、1 型和 2 型糖尿病、妊娠糖尿病以及肥胖症。

阅读 GluFormer 论文。

LATTE3D：几乎可以做到根据文字提示即时生成 3D 形状

NVIDIA Research 今年发布的另一个 3D 生成模型是 LATTE3D，它就像一台高速的虚拟 3D 打印机，能在 1 秒内将文字提示转换成 3D 表征。该模型生成的形状采用标准渲染应用中常用的格式，可轻松地服务于虚拟环境中，应用在视频游戏开发、营销、设计项目或搭建机器人的虚拟训练场地。

阅读 LATTE3D 论文。

MaskedMimic：重建人形机器人的真实运动

为了推进人形机器人的发展，NVIDIA 的研究人员发布了 MaskedMimic，这是一个 AI 框架，它能够将图像修复技术（即从不完整或被遮蔽的视角重建完整数据的过程）应用于运动描述中。

MaskedMimic 可以根据部分信息（例如运动的文字描述，或来自虚拟现实头盔的头部和手部位置数据）补全信息以推断全身运动。它已经成为旨在加速人形机器人开发的研究项目 NVIDIA Project GR00T 的一部分。

阅读 MaskedMimic 论文。

StormCast：大大加强天气预报、气候模拟

在气候科学领域，NVIDIA Research 发布了 StormCast，这是一个用于模拟大气动力学的生成式 AI 模型。在全球数据上训练而成的其他机器学习模型的空间分辨率通常为 30 公里，时间分辨率为 6 小时，而 StormCast 达到了 3 公里的空间分辨率和每小时的时间分辨率。

NVIDIA 研究人员利用来自来自美国中部的约三年半美国国家海洋和大气管理局（NOAA）气候数据对 StormCast 进行了训练。当与降水雷达配合使用时，StormCast 能够提供最多提前 6 小时的预报，其准确度比 NOAA 最先进的 3 公里尺度区域天气预报模型高出 10%。

阅读与劳伦斯伯克利国家实验室和华盛顿大学的研究人员合作撰写的 StormCast 论文。

NVIDIA Research 在 AI、自动驾驶汽车、机器人领域创下多项新纪录

整个 2024 年，源自 NVIDIA Research 的模型在 AI 训练和推理、路线优化、自动驾驶等领域的基准测试中创下了多项新纪录。

NVIDIA cuOpt 是一项用于物流改进的优化 AI 微服务，在基准测试中创造了 23 项世界纪录。在针对 AI 训练和推理的 MLPerf 行业基准测试中，NVIDIA Blackwell 平台展现了世界级的性能。

在自动驾驶汽车领域，NVIDIA Research 的端到端自动驾驶模型 Hydra-MDP 在 CVPR 2024 自动驾驶国际挑战赛上获得了“端到端自动驾驶”赛道冠军。

在机器人领域，FoundationPose（一个用于 6D 姿态估计和新物体跟踪的统一基础模型）在基于模型的不可见物体姿态估计 BOP 排行榜上名列第一。

NVIDIA Research 在全球拥有数百名科学家和工程师，专注于 AI、计算机图形学、计算机视觉、自动驾驶汽车和机器人等领域的研究。了解更多有关 NVIDIA Research 的信息。