像说母语一样说话:NVIDIA 在语音挑战赛中胜出

NVIDIA 团队的文本转语音 AI 模型能够根据说话者的语音样本和他们想说的话语文本,将说话者的声音合成为七种语言中的任何一种。
作者 Rick Merritt

Akshit Arora 和 Rafael Valle 的 AI 开发成果将使他们有朝一日能够用母语与配偶的家人交谈。

Arora 和 Valle 以及他们的同事 Sungwon Kim 和 Rohan Badlani 一起赢得了 LIMMITS’24 挑战赛。该挑战赛要求参赛者用英语或印度国内使用的六种语言中的任何一种,实时重现说话者的声音,并加入适当的口音。他们所开发的新 AI 模型只需要三秒钟的语音样本。

这支 NVIDIA 团队为超过十亿以孟加拉语、恰蒂斯加尔语、印地语、卡纳达语、马拉地语和泰卢固语为母语的用户带来了便利,推进了个性化语音界面这一新兴领域的技术发展。

打造逼真的语音界面

个性化的文本转语音转换技术仍在不断进步。现有的服务有时无法准确反映目标语言的口音或说话者声音的细微差别。

该挑战赛根据模型生成语音的自然程度及其与原说话者声音的相似度来评判参赛作品。

最新进展有望打破语言障碍,带来个性化、逼真的对话和体验。广播公司、电信公司、大学以及电子商务和在线游戏服务公司都希望部署这种技术,来实现多语言电影、讲座和虚拟智能体。

Arora 表示: “我们证明了我们能够以前所未有的规模实现这一目标。”

打破语言障碍

Arora 是一名高级数据科学家,为 NVIDIA 最大的客户之一提供支持。Arora 讲的是旁遮普语,而他的妻子及其家人的母语是泰米尔语。

长期以来,他一直希望为自己和他人消除语言障碍。他说:“我有一些同学,他们的母语讲得比在学校里使用的印地语和英语要好得多,所以他们很难理解课堂材料。”

对于 Valle 来说,语言障碍跨越了大陆。Valle 是巴西人,而他的妻子及其家人都说古吉拉特语,这是一种在印度西部广泛使用的语言。

Valle 是一名拥有计算机音乐、机器聆听和即兴演奏学位的 AI 研究员,他表示: “我每天都要面对这个问题,我们已经尝试过很多产品来帮助我们进行更清晰的对话。”

AI 研究员 Badlani 则表示,自己在印度七个不同的邦生活过,每个邦都有自己的通用语言,这激励了他从事这一领域的工作。

争分夺秒

这个项目始于近两年前,当时 Arora 和 Badlani 组建了一支四人团队,参加将于 2023 年举行的各种挑战赛。

他们为所谓的印度语言生成了一个工作代码库。但为了夺得 1 月份的胜利,他们必须争分夺秒,该团队直到 2024 年挑战赛报名截止日期前 15 天才得知比赛的举办。

幸运的是,NVIDIA 首尔办公室的深度学习研究员 Kim 已经研究了一段时间的 AI 模型,因此非常适合应对这一挑战。

Kim 是文本转语音的语音合成专家,他在 2023 年在 NVIDIA 开始第二段实习期之前,正在设计一个名为 P-Flow 的模型。P-Flow 模型借鉴了大语言模型所采用的技术(即以简短的语音样本为提示语),这样它们无需重新训练就能对新的输入做出反应。

他表示:“我当初是针对英语创建了这个模型,但现在我们能够将它推广到任何语言。”

Valle 表示: “在 Kim 加入 NVIDIA 之前,我们就有探讨过这个模型了。” Kim 于今年 1 月正式加入 NVIDIA,而 Valle 曾在他的两段实习期间指导过他。

为他人“发声”

P-Flow 很快将成为 NVIDIA Riva 的一部分。NVIDIA Riva 是 NVIDIA AI Enterprise 软件平台中一个用于构建多语言语音和翻译 AI 软件的框架。

借助这项新功能,用户将能够在其数据中心、个人系统、公有云或私有云服务中部署该技术。目前,语音翻译服务通常在公有云服务上运行。

Arora 表示: “我希望我们的客户能够尝试这项技术。我十分高兴能在挑战赛中展示我们每天所做的工作。”

本次竞赛是为印度最广泛使用的九种语言开发开源数据集和 AI 模型的举措的一部分。

Arora 和 Badlani 在 GTC 的会议上分享了他们的经验。

下面请听该团队的模型所生成的结果,首先是卡纳达语母语者的三秒钟样本

下面是一个声音相似的合成语音用印地语朗读本博客的第一句话:

随后是英语:

请参阅此处通知,了解有关软件产品信息。

全球 AI 与加速计算大会 NVIDIA GTC 于 3 月 18 日至 21 日在美国加利福尼亚州圣何塞和线上同时举行,您可以在本届大会的生成式 AI 会议上亲身体验这项技术。