预训练深度学习模型和软件工具,使开发者能够针对所有行业适配 Riva;从云端到边缘轻松部署
加利福尼亚州圣克拉拉市—GTC—2021年4月12日— NVIDIA 今日宣布 NVIDIA Riva 框架为开发者提供经过预先训练的最先进的深度学习模型和软件工具,以创建可轻松适应每个行业和领域的交互对话式 AI 服务。
针对每天会生成数十亿小时的通话、网络会议和流式传输视频内容,NVIDIA Riva 模型可提供高度精确的语音识别、超凡的语言理解、多语言实时翻译以及新的语音合成功能,最终可创建表达对话式 AI 代理。
借助 GPU 加速,端到端语音流程运行时间可达到 100 毫秒内(也就是包括聆听、理解和生成响应都在内的速度,比人眼眨眼还要快),并部署在云端、数据中心或边缘,可立即将规模扩展为数百万用户。
NVIDIA 创始人兼首席执行官黄仁勋表示:“对话式AI是终极AI。深度学习在语音识别、语义理解和语音合成方面的突破,使云服务成为可能。 NVIDIA Riva 将这种最先进的对话式AI从云端引出,让客户可以将AI服务部署于任何地方。”
NVIDIA Riva 将支持以前无法实现的新一代基于语言的应用程序,从而改善与人类和机器的交互。它为创建数字护士等服务开启了大门,可帮助全天候监控患者情况,缓解医务人员劳动量过大的难题;在线助理可以帮助了解消费者寻找的产品并推荐最佳产品;实时翻译可以改进跨边界工作场所的合作,让观众以自己的语言畅享直播内容。
Riva 使用经过训练的模型构建而成,这些模型在十亿多页的文本、六万小时的语音数据以及不同的语言、口音、环境和术语方面接受了数百万个GPU小时的训练,达到世界一流的准确性。开发者首次可使用 NVIDIA TAO 框架,针对任何任务、任何行业和任何系统,对模型轻松进行训练、适配和优化。
开发者可以从 NVIDIA 的 NGC™目录中选择 Riva NVIDIA 预训练模型,使用 TAO 工具包并利用自己的数据对模型进行微调,优化此模型,使其在实时语音服务中实现最大吞吐量和最低延迟,然后只需几行代码轻松部署模型,无需深度 AI 专业知识。
广泛的行业支持
自从 Riva 于去年 5 月启动早期参与计划以来,已有成千上万家公司要求加入该计划。早期用户包括美国电信巨头 T-Mobile,T-Mobile 希望 AI 能够使用自然语言处理进一步扩展其机器学习产品,从而提供实时见解和建议。
T-Mobile 产品和技术副总裁 Matthew Davis 表示:“借助 NVIDIA Riva 服务,通过使用 T-Mobile 数据进行微调,我们正在构建产品来帮助我们实时解决客户问题。在评估了几种自动语音识别解决方案后,T-Mobile 发现 Riva 以极低的延迟提供高质量模型,从而为客户提供出色的体验。”
NVIDIA 还与 Mozilla Common Voice 合作,Mozilla Common Voice 是一个语音数据开源集合,供初创公司、研究人员和开发者调整支持语音的应用程序、服务和设备。Common Voice 是全球最大的多语言公开语音数据集,拥有 60 种不同语言的 9,000 多小时的语音数据。NVIDIA 使用 Riva 并利用数据集开发预训练模型,然后将其回馈给社区免费使用。
Mozilla 的执行董事 Mark Surman 表示:“我们推出了 Common Voice,教会机器真正的人类独特的语言、口音和语音的讲话方式。NVIDIA 和 Mozilla 都有一个共同的愿景,即普及语音技术,并确保该技术能反映出互联网中丰富多样的人声。”
NVIDIA 对话式AI 工具的下载超过 45,000 次。这些工具可以与来自数百家合作伙伴的技术相结合,并支持领先的软件库,让世界各地的开发者能够构建创新的直观对话式 AI 应用程序。
YouTuber 和 PythonProgramming.net 创始人 Harrison Kinsley表示:“Riva 拥有一系列预训练模型,从自动语音识别、自然语言处理和语音合成,使 Riva 真正成为对话式 AI 的端到端管道。所有模型的速度惊人的快且经过良好优化,开发者在示例的帮助下可以轻松使用 API,这些示例适用于许多对话式AI 任务。”
供应情况
将在第二季度发布新特征,这些新特征是现行 NVIDIA Riva 公测计划的组成部分。开发者可立即从 NGC下载,并在这里获取更多信息。
请关注 4 月 12 日至 16 日的在GTC在线活动并免费注册,了解更多关于 NVIDIA Riva 的信息。欢迎在北京时间4月13日上午 9:00收看NVIDIA 创始人兼首席执行官黄仁勋的 GTC21主题演讲直播。