即时生成模型:NVIDIA 生成式 AI 研究实现在 1 秒内生成 3D 形状

LATTE3D 模型可快速将文本提示转换成高质量 3D 形状,有助于填充虚拟世界。
作者 Isha Salian

NVIDIA 研究人员使 LATTE3D(一款最新文本转 3D 生成式 AI 模型)实现双倍加速。

LATTE3D 就像一台虚拟 3D 打印机,能在 1 秒内将文字提示转换成物体和动物的 3D 表征。

该模型生成的形状采用标准渲染应用中常用的格式,可轻松地服务于虚拟环境中,应用在视频游戏开发、营销、设计项目或搭建机器人的虚拟训练场地。

NVIDIA AI 研究副总裁 Sanja Fidler 带领的 NVIDIA 多伦多 AI 实验团队开发了 LATTE3D。Sanja Fidler 表示: “一年前,AI 模型生成这种质感的 3D 视觉效果需要 1 个小时,当前的最新技术也需要 10 到 12 秒。现在,我们将产出结果的速度又提高一个数量级,使各行各业的创作者都能实现近乎实时的文本转 3D 生成。”

这一进展意味着在单颗 GPU(例如 NVIDIA Research 的 demo 中使用的 NVIDIA RTX GPU)上运行推理时,LATTE3D 几乎可以做到即时生成 3D 形状。

缩短从构思、生成到迭代的周期

创作者不需要从零开始设计,也不需要翻阅 3D 素材库,只需要在脑海中“灵感乍现”时使用 LATTE3D,就可快速生成具体的对象。
该模型可根据每个文本提示生成一些不同的 3D 形状供创作者选择。被选中的形状将会在几分钟内进行优化,以提高质量。然后,用户可以将形状导出至图形软件应用或平台,例如NVIDIA Omniverse,该平台能够开发基于通用场景描述(OpenUSD)的 3D工作流和应用程序。

研究人员在两个特定数据集上训练了 LATTE3D 模型,分别是动物和日常物品,开发人员可以使用相同的模型架构在其他类型数据上来训练 AI。

如果在 3D 植物数据集上进行训练,LATTE3D 则能够帮助景观设计师在与客户进行讨论时,使用树木、花丛和多肉植物来快速填充花园效果图。如果在家居物品数据集上进行训练,该模型将会生成适用于 3D 家居模拟环境中的物品,开发人员还可以将这样生成的物品来训练个人助手机器人,有助于其后期在现实世界中的测试和部署。

LATTE3D 使用 NVIDIA Tensor Core GPU 进行训练。除 3D 形状外,该模型还使用 ChatGPT 生成的各种文本提示进行训练,以更好地处理用户为描述特定 3D 物体而可能想出的各种短语,例如让该模型理解凡是以各种犬科动物为特征的提示,都应该生成类似狗的形状。

NVIDIA Research 由全球数百名科学家和工程师组成,专注于 AI、计算机图形、计算机视觉、自动驾驶汽车和机器人等领域的研究。

研究人员在 NVIDIA GTC 2024 上介绍了他们的研究成果,这些成果推动了扩散模型训练技术的前沿发展。了解更多信息,请访问 NVIDIA 技术博客并查看完整 GTC NVIDIA Research 会议列表。

有关 NVIDIA AI 的最新消息,请观看 NVIDIA 创始人兼首席执行官黄仁勋在 GTC上的主题演讲重播: https://www.nvidia.cn/gtc-global/keynote