现在您说着我的语言:NVIDIA Riva 为完全可定制的语音 AI 设定新标准

作者 英伟达中国

无论是用于虚拟助手、转录还是联络中心,语音 AI 服务都会将言语和对话转化为可创造业务奇迹的不同数据。

在本周举行的 GTC 大会上,NVIDIA 宣布 NVIDIA Riva 增加了新功能 – Riva 是 GPU 加速的软件开发套件,用于构建和部署语音 AI 应用。

Riva 的预训练模型现在提供七种语言版本,其中包括法语和印地语。未来将会提供更多语言版本:阿拉伯语、意大利语、日语、韩语和葡萄牙语。Riva 还提高了英语、德语、普通话、俄语和西班牙语版本的准确性。此外,它还增加了字词级置信度评分和说话人分辨(即在音频流中识别说话人的过程)等功能。

Riva 设计为允许在语音 AI 工作流的每个阶段进行完全可定制,以帮助高效解决独特问题。开发者也可以将其部署到他们希望数据出现在的地方:本地、混合多云、边缘或嵌入式设备。企业可以使用 Riva 改进服务,以及提升效率和竞争优势。

虽然对语音服务 AI 的需求一直很大,但开发工具却未能跟上需求。越来越多的人在家工作和学习、上网购物以及寻求远程客户支持,这给呼叫中心带来巨大压力,并使语音应用极限承压。根据 2022 年的一份彭博社报告,由于人手短缺给呼叫中心造成沉重打击,客户服务等待时间最近增加了两倍。

语音 AI 的进步提供了前进的道路。NVIDIA Riva 使企业能够探索更大的深度学习模型,并开发更为细致入微的语音系统。基于 Riva 构建的语音 AI 应用提供了更快改进服务的途径,同时有望改善客户体验和互动。

对语音 AI 应用的需求日益增长

Fortune Business Insights 这家机构指出,2021 年全球联络中心软件市场的价值约为 270 亿美元,预计到 2029 年,这一数字将增长接近三倍,达到 790 亿美元。

出现此大幅增长的原因是,自定义语音应用能够惠及几乎所有行业中各种规模的企业 – 从全球性企业,到提供基于语音 AI 的系统和云服务的原始设备制造商,再到系统集成商和独立软件供应商。

Riva SDK 加速 AI 工作流 

NVIDIA Riva 包含预训练语言模型,客户可按照原样使用这些模型,也可使用 NVIDIA TAO 工具套件(允许在无代码环境中使用自定义数据集)中的迁移学习工具来微调这些模型。客户可以优化和导出 Riva 自动语音识别 (ASR) 和文本转语音 (TTS) 模型,然后将其作为语音服务进行部署。

语音 AI 正在深入到越来越多类型的应用中,例如客户支持虚拟助手和聊天机器人、视频会议系统、汽车餐厅快餐订单、电话零售、媒体和娱乐等。全球许多公司都采用了 Riva 来推动语音 AI 开发工作,这些公司包括 T-Mobile、德勤、HPE、Interactions、1-800-Flowers.com、Quantiphi 和 Kore.ai。

  • T-Mobile 在其 T-Mobile Expert Assist(一款定制的呼叫中心应用,使用 AI 来转录实时客户对话和推荐解决方案)中采用了 Riva,以协助 17000 位客户服务坐席完成工作。T-Mobile 计划不久后在全球部署 Riva。
  • 慧与提供 HPE ProLiant 服务器系统,这些系统皆由 NVIDIA GPU 和 NVIDIA Riva 软件提供支持,能够开发和运行极具挑战性的语音 AI 和自然语言处理工作负载,从而轻松将音频转化为洞见。HPE ProLiant 系统和 NVIDIA Riva 组成先进的全栈解决方案,可运行金融服务和其他行业应用。

HPE 的 HPE GreenLake 解决方案副总裁 Scott Ramsay 表示:“为了充分发挥 NVIDIA Riva 的功能,HPE 在 HPE Ezmeral 软件的基础上提供了基于 Kubernetes 的 NLP 参考架构。此系统通过 HPE GreenLake 云平台提供,使开发者能够加速开发和部署新一代语音 AI 应用。”

  • 德勤为希望部署 ASR 和 TTS 用例(例如全球多家大型快速下单餐厅的接单系统)的客户提供有力支持。它还为医疗健康服务提供商开发聊天机器人服务,以便准确高效地转录患者问题和聊天要点。

美国德勤负责人 Christine Ahn 表示:“自然语言处理技术的进步使得设计经济高效的体验成为可能,从而能与客户进行有针对性、简单和自然的对话。我们的客户正在寻找简化的对话式 AI 部署路径,而 NVIDIA Riva 有效支持该路径。”

  • Interactions 已将 Riva 与其 Curo 软件平台集成在一起,为电信等众多行业的客户以及 1-800-Flowers.com 等已部署语音 AI 接单系统的公司打造无缝的个性化互动过程。
  • Kore.ai 正将 Riva 与其 SmartAssist 语音 AI 联络中心即服务进行集成,此服务为该公司的 BankAssist、HealthAssist、AgentAssist、HR Assist 和 IT Assist 产品提供支持。该公司正在利用 NVIDIA Riva 开展概念验证工作。
  • Quantiphi 是一家解决方案交付合作伙伴,正使用 Riva 为媒体和娱乐业客户(包括福克斯新闻)开发隐藏式字幕解决方案。它还使用 Riva 为电信和其他行业开发数字虚拟形象。

复杂的语音 AI 工作流,更轻松的解决方案

语音 AI 工作流可能很复杂,而且要跨多项服务进行协调。需要大规模运行微服务,同时要运行 ASR 模型、自然语言理解、TTS 和特定领域的应用。NVIDIA GPU 很适合用于加速此类专业任务。

Riva 提供用于构建语音 AI 应用的软件库,并且包含适用于 ASR 和 TTS 的 GPU 优化服务(使用了新的深度学习模型)。开发者可以将这几项语音 AI 技能融合到他们的应用中。

作为汇集各种 GPU 优化的 AI 软件、模型和 Jupyter Notebook 示例的中心,NVIDIA NGC 可让开发者轻松访问 Riva 和预训练模型。

NVIDIA AI Enterprise 是云原生的 AI 和数据分析软件套件,经过优化可助力各种组织使用 AI,而且还提供对 Riva 的支持。该套件经过认证,可随时随地(包括在企业数据中心和公有云等)进行部署,并包含全球企业支持,可保证 AI 项目按计划顺利进行。

在 NVIDIA LaunchPad 中的即用型基础架构上,通过分步引导式实验室试用 NVIDIA Riva