NVIDIA扩展 Maxine 视频编辑功能,展示 3D 虚拟会议研究成果

Maxine的生产版本现已在 NVIDIA AI Enterprise中推出;研究演示示范了 3D 技术如何提升视频通信的质量。
作者 英伟达中国

NVIDIA Maxine的帮助下,专业人士、团队、创作者等能够利用AI的强大性能用普通麦克风和网络摄像头创造出高品质的音视频效果。

通过这套由GPU加速的软件开发工具套件和云原生微服务,用户可以部署能够改进实时通信服务和平台的音视频及增强现实效果的AI功能。Maxine还将扩展视频编辑功能,使团队的视频通信能力达到新的高度。

此外,在本周举行的SIGGRAPH大会上,NVIDIA Research还演示了AI如何通过3D功能树立视频会议的新标杆。

NVIDIA Maxine功能扩展至视频编辑领域 

无线连接使人们能够在更多地点参加虚拟会议。一般情况下,当通话者在移动中或位于连接不佳的地点时,音视频质量就会受到严重影响。

而借助背景音降噪、超高分辨率、眼神交流等先进的实时Maxine功能,远程用户可以获得更好的人际交流体验。

此外,Maxine 现在还可用于视频编辑。NVIDIA合作伙伴正在使用提升视频会议质量的Maxine 功能改变这一专业工作流。无论是销售宣传还是网络研讨会,编辑视频的目的都是为了尽可能广泛的吸引受众。通过Maxine,专业人员可以充分利用AI功能增强音视频信号。

有了 Maxine,发言人可以将目光从屏幕移到参考笔记或脚本上,而在屏幕上他们仍在直视镜头。用户还能以低分辨率拍摄视频,并在后期提高质量。另外,Maxine还使用户能够用多种不同语言录制视频并导出英语视频。

今年的Maxine抢先体验版中将发布的功能有:

  • Interpreter:将中文、俄语、法语、德语和西班牙语翻译成英语,同时将用户影像转换成他们在说英文的动画形象。
  • Voice Font:使用户能够应用发言者的声音特征并将其映射到输出的音频中。
  • Audio Super Resolution:通过提高音频信号的时间分辨率和扩展带宽来提升音频质量。该功能目前支持从 8,000Hz 到 16,000Hz 以及从 16,000Hz 到 48,000Hz 的上采样,在更新后还减少了 50%的延迟,提高了2倍的吞吐量。
  • Maxine Client:将 Maxine 微服务的AI功能加入到 PC 上的视频会议中。该应用针对低延迟流式传输进行了优化,并将使用云来满足其所有 GPU计算需求。瘦客户端将于今年秋季在 Windows 上推出,之后还将增加对其他操作系统的支持。

Maxine可以部署在云端、本地或边缘,这意味着用户可以在几乎任何地方进行高质量的通信。

树立视频会议的新标杆

许多合作伙伴和客户正在体验Maxine带来的高质量视频会议和视频编辑。Maxine的两项功能Eye Contact和Live Portrait现已在NVIDIA AI Enterprise软件平台上发布。Eye Contact通过估计用户的视线并将其与摄像头对齐来模拟用户直视摄像头。而Live Portrait则能通过用户的实时视频画面将用户的人像照片转换成动画。

软件公司 Descript的目标是让视频与文档和幻灯片一样,成为每位沟通者的主要工具。借助NVIDIA Maxine,使用 Descript 的专业人员和初学者都可以使用AI功能改进他们的视频内容工作流程。

Descript 业务和企业发展主管Jay LeBoeuf 表示:“有了NVIDIA Maxine的Eye Contact功能,用户再也不用担心背诵脚本或枯燥乏味的重复拍摄视频了。他们每次都可以在保持完美屏幕形象的同时,准确无误地说完脚本。”

Reincubate 的Camo应用程序充分利用人们已拥有的硬件和设备,扩大精彩视频的制作渠道。为此,该应用为用户提供了更大的图像控制权,并实现了强大、高效的视频特效和转换处理流程。通过使用 NVIDIA Maxine所提供的技术,Camo 为用户提供了一条更加简单的精彩视频创作途径。

Reincubate创始人兼首席执行官Aidan Fitzpatrick表示:“将NVIDIA Maxine集成到Camo中让我们能够轻松地充分利用用户RTX GPU的高性能。有了Maxine,团队能够更快、更有信心地开展工作。”

Quicklink的Cre8是一个功能强大的视频制作平台,可用于创建专业的品牌化制作以及虚拟和混合现场活动。其用户友好的界面整合了直观的设计与构建、编辑和自定义专业化制作所需的所有工具。Cre8采用NVIDIA Maxine技术,最大程度地提高了生产力以及视频制作的质量,使一切尽在用户的掌握之中。

Quicklink首席执行官Richard Rees表示:“Quicklink Cre8可以提供全球先进的视频制作平台。通过NVIDIA Maxine,我们能够添加更多先进功能,比如自动构图、视频噪音消除、噪音和回声消除以及眼神交流模拟等。”

gemelo.ai打造了一个能够扩展用户的语音、内容和互动的AI孪生创建平台。gemelo.ai 团队可以使用 Maxine的Live Portrait 功能,为经过扩展的个性化内容和一对一互动带来新的可能性。

gemelo.ai首席执行官Paul Jaski表示:“Live Portrait的真实感释放了我们AI孪生的新潜能,带来了颠覆的变化。我们的客户现在可以设计并部署无比逼真的数字孪生,获得无限扩展内容制作以及跨应用、网站和混合现实体验交互的‘超能力’。”

NVIDIA Research展示3D视频如何提高沉浸式通信的质量

除了支持Maxine 的高级功能外,NVIDIA AI还能提升3D视频通信的质量。NVIDIA Research最近发表的一篇论文展示了AI如何利用最少的捕捉设备来支持3D视频会议系统。

3D网真会议系统通常价格昂贵、需要很大的空间或制作工作室,并且要用到高带宽、高容量的视频流式传输,这些都限制了该技术的普及。NVIDIA Research分享了一种新的方法,该方法运行在基于 VisionTransformer的新型编码器上,可将普通网络摄像头输入的2D视频转换成3D视频。AI无需在与会者之间来回传递3D数据,使通话的带宽要求与 2D 会议相同。

这项技术采用体积渲染技术,将用户的 2D视频自动创建为一种被称为神经辐射场(NeRF)的 3D呈现方式。因此,与会者可以像在传统视频会议中一样,在解码可实时渲染的高质量3D图像的同时传输 2D 视频。而且借助Maxine的Live Portrait,用户能够以3D形式呈现自己的肖像。

以AI为媒介的3D视频会议可以大幅降低3D捕捉成本、提供高保真的3D呈现、展示逼真或风格化的虚拟形象并在视频会议中实现相互之间的眼神交流。相关研究项目展示了AI如何帮助提升通信和虚拟互动水平,这也为NVIDIA未来的视频会议技术指明了方向。

请观看下面的系统演示。SIGGRAPH与会者可以莅临Emerging Technologies展台,在 Looking Glass设计的 3D 显示屏上现场观看演示。

供应情况

进一步了解现已在NVIDIA AI Enterprise上提供的NVIDIA Maxine

了解3D视频会议项目背后的更多研究。

主题图片由NVIDIA Research提供。