在 GTC(GPU 技术大会)上通过极具震撼的演示展示如何利用 Omniverse 让真人 CEO 与其虚拟形象并肩而立

by Brian Caulfield

这种事只会发生在 NVIDIA Omniverse,这个 NVIDIA 用于 3D 工作流的虚拟世界仿真协作平台。

在对 NVIDIA 首席执行官黄仁勋的虚拟形象模型进行的采访中,

“什么是最伟大的……”其中一位虚拟黄仁勋的创作者问道,他顿住并停了下来,并没有问完脚本设定的问题。

虚拟版黄仁勋不慌不忙,停顿了片刻,仔细思索着答案。

“最伟大的人是那些善待他人的人,”虚拟版黄仁勋回答道。

借助 Omniverse,前沿的计算机图形、物理模拟、现场直播的首席执行官本人以及一群由 AI 驱动的虚拟形象助手共同促成了 NVIDIA 在 GPU 技术大会上的主题演讲。

在此过程中,还有一处点睛之笔。

主题演讲中加入了 AI 驱动的一针见血的点评,让人从意想不到的角度一窥 Omniverse 技术的深度。

“Omniverse 是一个枢纽,各个领域的研究人员在此汇聚,并协调一致地开展工作,”NVIDIA 创意团队成员 Kevin Margo 说道,他负责组织这次演讲,“Omniverse 促进了各个领域的融合。”

虚拟版黄仁勋的即兴发言为这次演讲画上了句号。这次演讲在黄仁勋带领观众领略 NVIDIA 技术如何在真实世界和虚拟世界中将 AI、图形和机器人技术与人类融合到一起的过程中,将真人 CEO 与虚拟环境和真实环境完美地结合在一起。

真人首席执行官,数字厨房

虽然观众看到的首席执行官全程都是真人,但是为了配合他讲述的内容,他周围的环境会随着他讲话发生变化。

观众看到黄仁勋在自己家的厨房发表了一场主题演讲,这在全球发生新冠疫情期间十分常见。

然后,随着黄仁勋的一个动作,他的厨房(甚至连固定橱柜的螺丝都是模型)突然从大家的视线中消失,他随即以虚拟形象出现在 Endeavor 的闪亮大厅。

“我们的目标之一是找到一种改进主题演讲活动的方法,”Margo 称,“我们一直在寻找那些特殊的时刻,让我们可以做一些新颖而奇幻的事情,同时还可以展示 NVIDIA 的最新技术创新。”

视觉之旅从这里开始,带着黄仁勋从大厅来到 Shannon 家,这是 Endeavor 内部的一个聚会场所,期间会穿过 Holodeck 和一个数据中心,并会在一个真实的机器人实验室和 Endeavor 外部作停留。

黄仁勋的厨房等虚拟环境由一个团队使用 Autodesk Maya 和 3ds Max 以及 Adobe Substance Painter 等 Omniverse 支持的常见工具创建。 

Omniverse 可以实时将这些工具连接在一起,这样每位团队成员都可以同步看到同事使用不同工具做出的更改,从而加快他们的工作进程。

“这一点至关重要,”Margo 说道。

现场拍摄开始后,虚拟和现实很快就合二为一。

从 10 月 30 日起,在 NVIDIA 硅谷总部的两间备用会议室里,一个本地视频小团队仅用四天时间就录制完成了黄仁勋的演讲。

借助 Omniverse,NVIDIA 的团队可以将其同事创建的动态虚拟环境投射到黄仁勋身后的屏幕上。

因此,打在黄仁勋身上的光会随着周围场景的变化而改变,使其更好地融入虚拟环境。

当黄仁勋穿过场景或摄像机移动时,黄仁勋周围的环境会随之改变。

“随着摄像机的移动,视频墙上的世界的视角和视差会相应地做出反应,”Mago 说道。

由于黄仁勋可以看到投射到他周围屏幕上的环境,因此在每个场景中的走动他都能够更游刃有余。

Omniverse 速度

Omniverse 加快了 NVIDIA 制作团队的工作速度,他们在每次拍摄后都将所需的大部分内容放在相机中即可,不需要在后期制作中添加复杂的数字布景。

因此,视频团队可以迅速创建出将首席执行官本人与虚拟场景和真实场景无缝融合到一起的演讲。

然而,Omniverse 不只是一种加速创意人员之间的协作并让他们快速处理好真实和数字元素以赶上最后期限的方式,它还是一个将主题演讲中采用的一系列演示串联到一起的平台。

黄仁勋宣布推出 Omniverse Avatar,旨在帮助开发者利用 Omniverse 创造交互式智能体,使它们能够视物、讲话,就广泛的主题进行交谈,并理解自然对话的意图。

Omniverse 集从光线追踪到推荐系统等多种深度技术于一体,这些技术在主题演讲期间进行了组合搭配,从而促成了一系列令人惊叹的演示。

在一段迅速登上新闻头条的演示中,黄仁勋展示了 Omniverse Avatar 的“Tokkio 项目”如何将计算机视觉、Riva 语音 AI 以及虚拟形象动画和图形连接到实时对话式 AI 机器人——虚拟版黄仁勋的 Omniverse 虚拟形象。

NVIDIA 的三位工程师与黄仁勋的虚拟模型之间的对话展现了专业、自然的问答效果,这不仅仅是一场技术之旅。

这次对话展示了虚拟版黄仁勋及其所处环境的逼真建模(细致到虚拟版黄仁勋移动头部时眼镜上的反光效果)以及由 Megatron 530B 大型语言模型提供支持的 NVIDIA Riva 语音合成技术如何支持自然、流畅的对话。

为了促成此次演示,NVIDIA 的创意团队在 Maya Substance 中创建了数字模型,其余工作均在 Omniverse 中完成。

他表示:“没有任何需要手动操作的地方,只需加载动画资源,然后与它对话就可以了。”

黄仁勋还进行了 Tokkio 项目中的另一场演示,即一个餐厅售货亭中的客户服务虚拟形象,能够看到两位顾客、与之交谈并了解他们的意图。

然而,此模型并非依赖于 Megatron,而是依赖于集成了餐厅菜单的模型,这使虚拟形象能够流畅地引导客户完成选择。

同样的技术堆栈也能帮助人类彼此交谈。黄仁勋还展示了 Maxine 项目在虚拟协作和视频内容创作应用程序中添加先进视频和音频功能的能力。

在演示中,一位女性身处嘈杂的咖啡馆,使用英语进行视频通话,但人们可以清晰地听到她的话语,不受背景噪音干扰。在她说话时,她的话被转录下来,并且实时翻译成法语、德语和西班牙语。

在 Omniverse 的帮助下,这些话由虚拟形象说出,并能按照这位女性的声音和语调进行交谈。

得益于 Omniverse 可通过 Omniverse Avatar 将先进的速度 AI、计算机视觉、自然语言理解、推荐引擎、面部动画和图形技术结合在一起,这些演示全部成为可能。

Omniverse Avatar 的语音识别基于 NVIDIA Riva,这是一个软件开发套件,可以识别多种语言的语音。Riva 还用于利用文字转语音功能生成接近真人的语音响应。

Omniverse Avatar 的自然语言理解基于 Megatron 530B 大型语言模型,该模型能够识别、理解和生成人类语言。

Megatron 530B 是一个预训练模型,几乎无需任何额外训练即可说出完整的句子,回答涉及各种学科领域的问题。它可以概括复杂的长篇故事,翻译为其他语言,并应对未经过专门训练的许多领域。

Omniverse Avatar 的推荐引擎由 NVIDIA Merlin 提供,利用该框架,企业可以构建能够处理大量数据的深度学习推荐系统,以提出更明智的建议。

其感知能力是由 NVIDIA Metropolis 实现的,这是一种用于视频分析的计算机视觉框架。

此外,其虚拟形象动画采用 NVIDIA Video2Face 和 Audio2Face、2D 和 3D AI 驱动的面部动画和渲染技术。

所有这些技术组合成一个应用程序,并使用 NVIDIA 统一计算框架实时处理。

这些技能打包成可扩展、可定制的微服务,可由 NVIDIA Fleet Command 跨多个地点安全部署、管理和编排。

借助这些技术,黄仁勋能够全面介绍 NVIDIA Omniverse 将如何变革一个价值数万亿美元的产业。

所有这些演示都基于 Omniverse 构建。利用 Omniverse 可将所有元素汇集在一起,包括首席执行官真人、真实环境、虚拟环境,以及在 Omniverse 中制作的一系列演示。

自去年年底推出以来,Omniverse 已被 500 家公司的设计师下载了超过 70000 次。现在,Omniverse Enterprise 的起价为每年 9000 美元。