ACE 技术将有更多应用:利用逼真数字人 AI 技术增强游戏体验

NVIDIA ACE 微服务提供的工具可让开发者创造出栩栩如生的非玩家角色。
by Jesse Clayton

编者注:本文属于《解码 AI》系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 RTX PC 用户展示全新硬件、软件、工具和加速特性。

数字角色正在升级。

非玩家角色 (NPC) 通常在电子游戏的剧情推进过程中起着至关重要的作用,但由于它们一般是为固定目的而设计,因此可能显得机械而无趣,尤其是在拥有数千个非玩家角色的广阔游戏世界中。

得益于光线追踪和 DLSS 等视觉计算技术的惊人进步,电子游戏在一定程度上比以往更具沉浸感和真实感,这更凸显了 NPC 机械互动的枯燥。

今年早些时候,我们推出了 NVIDIA Avatar Cloud Engine (ACE) production microservices,为游戏开发者和数字创作者带来了制作逼真 NPC 的利器。开发者可通过 ACE 微服务将先进的生成式 AI 模型集成到游戏和应用内的数字虚拟形象中。通过 ACE 微服务,NPC 可以在游戏中与玩家进行实时动态互动和对话。

领先的游戏开发者、工作室和初创公司已将 ACE 整合到他们的游戏中,为 NPC 和数字人带来了更丰富的性格和更强的互动能力。

NVIDIA ACE 让虚拟形象栩栩如生

创建 NPC 的过程从为他们提供背景故事和目的开始,这有助于引导叙事并确保对话与背景相关。然后,ACE 子组件会协同工作,为虚拟形象构建交互能力并增强其响应能力。

NPC 可使用多达四个 AI 模型进行聆听、处理、生成对话并做出回应。

首先,玩家的声音会进入 NVIDIA Riva, 该技术可利用 GPU 加速的多语种语音和翻译微服务,构建完全可定制的实时对话式 AI 工作流,并将聊天机器人变成引人入胜、富有表现力的助手。

借助 ACE,Riva 的自动语音识别 (ASR) 功能可处理语音内容并利用 AI 实时提供非常准确的转录文本。探索由 Riva 提供支持的语音转文本演示,其中涉及了十多种语言。

然后,转录文本会进入 LLM (例如 Google 的 Gemma、Meta 的 Llama 2 或 Mistral),并借助 Riva 的神经网络机器翻译生成以自然语言表述的文本回复。接下来,Riva 的文本转语音功能会据此生成音频回复。

最后,NVIDIA Audio2Face (A2F) 可生成面部表情,并与多种语言的对话同步。通过微服务,数字虚拟形象可以显示出逼真的动态情绪,这类情绪可以实时串流传输,也能在后期处理过程中烘焙。

AI 网络会自动制作面部、眼睛、嘴巴、舌头和头部动作的动画,并使这些动画与所选情绪范围和强度水平相匹配。A2F 还可以直接根据音频片段自动推断情绪。

每个步骤都是实时完成的,以确保玩家和 NPC 能够流畅对话。这些工具可以自定义,因此开发者可以灵活构建自己需要的角色类型,以便打造沉浸式剧情或游戏世界。

专为推动发展而生

在 GDC 和 GTC 大会上,开发者和平台合作伙伴展示了利用 NVIDIA ACE 微服务的演示,其中不仅包括游戏中的交互式 NPC,还有能力超强的数字人护士。

育碧正在探索包含动态 NPC 的新型互动游戏。“NEO NPCs”是其最新研发项目的成果。这款先进的 NPC 功能,可与玩家、环境或其他角色实时互动,为动态和突发故事开辟全新可能性。

这些 NEO NPC 的功能在各种 Demo 中得到了展示。每个场景都侧重于 NPC 行为、环境和上下文意识的不同方面;一系列实时反应和动画;以及连续对话、协作和战略决策。这些 Demo 整体突显了该技术在推动游戏设计的发展和沉浸感提升方面的潜力。

育碧的叙事团队利用 Inworld AI 技术打造出两个 NEO NPCs:Bloom 和 Iron,他们拥有自己的背景故事、知识库和不同的对话风格。Inworld 技术还为 NEO NPC 提供有关周围环境的内在知识,并通过 Inworld 的 LLM 提供交互式响应。NVIDIA A2F 为这两个 NPC 实时提供面部动画和口型同步。

Inworld 和 NVIDIA 通过全新技术演示 Covert Protocol 震撼了 GDC 大会的与会者,该技术演示展示了 NVIDIA ACE 技术和 Inworld 引擎。在这个技术 Demo 中,玩家将扮演一名私家侦探,根据与场景中角色的 NPC 结果来完成目标。Covert Protocol 通过 AI 赋能的数字角色解锁了社交模拟游戏机制,这些角色可以传递关键信息,提出挑战任务并促进关键叙事的发展。AI 驱动的交互性和玩家掌控力得到了进一步提升,这种提升将为注重玩家个性的新兴游戏玩法开辟全新可能性。

Covert Protocol 基于虚幻引擎 5 开发,使用 Inworld 引擎和 NVIDIA ACE (包括 NVIDIA Riva ASR 和 A2F) 来增强 Inworld 的语音和动画工作流。

在 CES 展会上,我们展示了与 Convai 合作打造的最新版 NVIDIA Kairos 的技术演示,该演示利用 Riva ASR 和 A2F 显著提高了 NPC 的交互性。借助 Convai 的新框架,NPC 甚至可以相互交谈,还能感知和拾取物体并将其运送至目标区域。此外,NPC 还能带领玩家前往目标地点,以及穿越各个游戏世界。

现实世界中的数字角色

用于创建 NPC 的技术也可用于为虚拟形象和数字人制作动画。除了游戏领域,承载特定任务的生成式 AI 也正在进入医疗健康、客户服务等领域。

在 GTC 大会上,NVIDIA 与 Hippocratic AI 合作扩展了其医疗数字人代理解决方案,展示了生成式 AI 医疗数字人代理虚拟形象的潜力。目前,更多工作正在进行中,旨在开发超低延迟推理平台,为实时用例提供支持。

Hippocratic AI 联合创始人兼首席执行官 Munjal Shah 表示:“我们的数字助理为全球患者提供有所帮助、及时和准确的信息。NVIDIA ACE 技术通过前沿的视觉效果和逼真的动画,让医疗助理栩栩如生,有助于我们更好地与患者沟通。”

Hippocratic 的初始 AI 医疗数字人代理的内部测试侧重于慢性病护理管理、健康指导、健康风险评估、健康调查的社会决定因素、术前外展服务和出院后随访。

UneeQ 是一个自主数字人平台,专门为客户服务和互动应用创建 AI 驱动的化身。UneeQ 将 NVIDIA A2F 微服务集成到其平台中,并将其与 Synanim ML 相结合,以创建高度逼真的数字人,从而获得更好的客户体验和参与度。

UneeQ 公司创始人兼首席执行官 Danny Tomsett 表示:“UneeQ 公司将 NVIDIA 动画 AI 与我们自己的 Synanim ML 合成动画技术相结合,使数字人支持实时人机交互,这种人机交互具有情感响应能力,能提供由对话式 AI 驱动的动态体验。”

游戏中的 AI

ACE 是众多 NVIDIA AI 技术之一,可将游戏提升到新的水平。

  • NVIDIA DLSS 是一项突破性图形技术,可在 GeForce RTX GPU 上利用 AI 提高帧率并改善图像质量。
  • NVIDIA RTX Remix 可让 Modder 轻松截取游戏素材,使用生成式 AI 工具自动增强材质,以及借助全景光线追踪和 DLSS 快速创建令人惊艳的 RTX 重制版游戏。
  • NVIDIA Freestyle 将通过全新的 NVIDIA app 测试版提供,可让用户通过实时后处理滤镜个性化定制超过 1200 款游戏的视觉美学效果,并具有 RTX HDR、RTX Dynamic Vibrance (RTX 数字亮丽) 等功能。
  • NVIDIA Broadcast 应用可将任何房间变成家庭工作室,为直播提供 AI 增强型语音和视频工具,包括噪音和回音消除、虚拟背景和 AI 绿幕、面部追踪、视频降噪和目光接触。

通过 NVIDIA RTX PC 和工作站体验最新的卓越 AI 赋能体验,并通过《解码 AI》了解最新动态和未来发展。

订阅《解码 AI》时事通讯,我们每周都会将新鲜资讯直接投递到您的收件箱。