SIGGRAPH 亮点抢先看 | NVIDIA 最新图形学研究成果推动生成式 AI 前沿领域的进一步发展

NVIDIA 近日发布了一批尖端 AI 研究。无论是静态还是动态、2D 还是 3D、超写实风格或是幻想风格，开发者和艺术家都能借助这些研究成果将其创意变为现实。

SIGGRAPH 2023 计算机图形学大会将于 8 月 6 日至 10 日在美国洛杉矶举办，NVIDIA 将亮相大会并发表约 20 篇用以推动生成式 AI 和神经图形学发展的研究论文，其中包括多项与美国、欧洲及以色列的十几所大学的联合研究成果。

NVIDIA 将发布的论文内容丰富，涵盖将文本转换成个性化图像的生成式 AI 模型、将静态图像转换成 3D 对象的逆向渲染工具、使用 AI 模拟超逼真复杂 3D 元素的神经物理模型以及可用于解锁全新的实时、AI 赋能的视觉细节生成能力的神经渲染模型等。

NVIDIA 研究人员经常在 GitHub 上与开发者分享创新成果，并将这些创新整合到产品中，包括用于构建和运行元宇宙应用的 NVIDIA Omniverse 平台，以及最近发布的用于视觉设计的自定义生成式 AI 模型“工坊” — NVIDIA Picasso。凭借多年深耕图形学领域所积累的研究成果，NVIDIA 能够将电影级渲染技术应用于游戏中，例如最近发布的《赛博朋克 2077》的“光线追踪：Overdrive 模式”技术预览版，其是全球首款利用全景光线追踪（也称为路径追踪）3A 游戏大作。

今年将于 SIGGRAPH 大会展示的研究进展，将能够帮助开发者和企业快速生成合成数据，以丰富用于训练机器人和自动驾驶汽车的虚拟世界。此外，这些研究还将能够赋能艺术、建筑、平面设计、游戏开发和电影领域的创作者，提升其用于故事板、预览乃至实际制作的高质量视觉效果的生成速度。

为 AI 增添个性化色彩：自定义文本–图像转换模型

能够将文本转换成图像的生成式 AI 模型，可为电影、电子游戏和 3D 虚拟世界的概念艺术或故事板创建带来强大工具。AI 文本-图像转换工具可以将“儿童玩具”这样的提示语转换成近乎无限的视觉效果，创作者可以从中获得灵感，生成毛绒动物玩偶、积木或拼图等图像。

然而，艺术家们的心中可能已经构思出了特定的主题。例如，一位玩具品牌的创意总监可能正准备围绕一款新的泰迪熊玩偶展开广告宣传，并希望基于泰迪熊茶会等各种不同的场景实现玩偶可视化。为提升生成式 AI 模型输出结果的细节水平，NVIDIA 与特拉维夫大学的研究人员将于 SIGGRAPH 大会上共同发表两篇论文，使用户能够提供便于模型快速学习的图像实例。

其中的一篇论文所介绍的技术需要利用实例图像来实现自定义输出，可在单个 NVIDIA A100 Tensor Core GPU 上加速个性化进程，将其速度从几分钟提升至约 11 秒，与以往的个性化方法相比，速度可提升约 60 倍。

第二篇论文则介绍了一个高度紧凑的模型 — Perfusion 模型。该模型可支持用户仅需少量概念图像就可将多个个性化元素（如特定的泰迪熊和茶壶等）组合至 AI 生成的视觉图像中：

推动 3D 创作：逆向渲染和角色创作方面的进展

在创作者构思出虚拟世界的概念艺术后，下一步就是渲染环境，并在其中填充 3D 物品和角色。NVIDIA Research 正在发明可加速这一耗时流程的 AI 技术，将 2D 图像和视频自动转换成 3D 形式，让创作者可以将其导入图形应用进行进一步编辑。

第三篇论文是与加州大学圣地亚哥分校的研究人员共同创作的，该论文中的技术可根据一张 2D 肖像画生成并渲染逼真的 3D 头像模型。这项重大突破能够使用 AI 来创建 3D 虚拟形象和召开 3D 视频会议，它可以在用户的桌面上实时运行，只需要使用普通的网络摄像头或智能手机摄像头就能生成一个写实化或风格化的 3D 远程呈现形象。

第四个项目是与斯坦福大学一起生成栩栩如生的 3D 角色动作。研究人员创建了一个 AI 系统，可以从现实世界网球比赛的 2D 视频录像中学习各种网球技能，并将这些动作应用于 3D 角色。模拟网球运动员可以准确地将球打到虚拟球场的目标位置，甚至与其他角色进行长时间的对攻。

除了网球的测试案例之外，这篇 SIGGRAPH 论文还解决了一个难题：即在不使用昂贵的动作捕捉数据的前提下，生成能够逼真地完成各种技术动作的 3D 角色。

一“丝”不苟：运用神经物理学实现逼真的模拟

在生成 3D 角色后，艺术家们就可以对头发等写实细节进行分层，这对动画师而言是一项复杂且计算成本相对较高的挑战。

平均而言，人类有 10 万根头发，每根头发都会对人类的运动和周围环境做出动态反应。过去，创作者会使用物理公式来计算头发的运动，根据可用的资源简化或近似化头发的运动。这也是大制作电影中虚拟角色的头发细节会比实时电子游戏中的虚拟形象更为精细的原因。

第五篇论文展示了一种可以利用神经物理学来实现数万根头发实时且高清模拟的方式。该项 AI 技术可训练神经网络预测相应对象在现实世界中的运动轨迹。

该团队的这种用于精确、全面地模拟头发的新颖方式还基于现阶段的 GPU 进行了针对性优化。其性能大幅优于目前最先进的基于 CPU 的求解器，可将模拟时间从数天缩短到数小时，同时还可提高实时头发模拟的质量。该技术最终可实现符合物理学的精确、交互式的头发形态。

神经渲染为实时图形带来电影级精细度

在使用动态 3D 物品和角色填充环境后，实时渲染会在该虚拟场景中模拟光线反射时的物理特性。NVIDIA 最近的研究展示了用于纹理、材质和体积的 AI 模型如何为电子游戏和数字孪生实时提供电影级的逼真视觉效果。

NVIDIA 在二十多年前发明了可编程着色技术，使开发者能够自定义图形流程。而在最新的神经渲染创新成果中，研究者使用了在 NVIDIA 实时图形流程中运行的 AI 模型来扩展可编程着色代码。

在第六篇 SIGGRAPH 论文中，NVIDIA 将介绍在不额外占用 GPU 内存的前提下，可提供多达 16 倍纹理细节的神经网络压缩技术。神经纹理压缩技术可大幅提高 3D 场景的真实性，下图中，旧格式中的文字是模糊的（中），而神经压缩纹理（右）可捕捉到比旧格式更加清晰的细节。

相比以前的纹理格式，神经纹理压缩（右）在不额外占用 GPU 内存的前提下可提供多达 16 倍的纹理细节

去年发布的 NeuralVDB 相关论文的研究成果现已开放提前访问，这项 AI 赋能的数据压缩技术将表现烟、火、云和水等体积数据所需的内存减少了 100 倍。

NVIDIA 还发布了关于神经材质研究的更多详情，这项研究出现在前不久的 NVIDIA GTC 主题演讲中。这篇论文描述了一种学习光如何在逼真的多层材料上反射的 AI 系统，将这些资产的复杂性简化成实时运行的小型神经网络，使着色速度提高了 10 倍。

这个利用神经渲染制作的茶壶可体现高逼真度，可精确表现出陶瓷材质及其不完美的透明涂层釉、指纹、污点甚至灰尘等。

探索更多生成式 AI 和图形学领域的研究

以上只是部分亮点，您还可以进入相关页面进一步了解 NVIDIA 将于 SIGGRAPH 大会发布的所有论文。NVIDIA 还将在本届大会上开展六门课程、四场分会，并进行两场新兴技术演示，涵盖路径追踪、远程呈现和用于生成式 AI 的扩散模型等内容。

NVIDIA Research 在全球范围内拥有数百名科学家和工程师，在 AI、计算机图形学、计算机视觉、自动驾驶汽车、机器人技术等领域开展研究。