解决语言问题:数据集利用对话式 AI 开启全球对话

一家初创公司借助由 NVIDIA 支持的免费公共数据集 Mozilla Common Voice,在东非实现新冠肺炎 (COVID-19) 信息服务自动化。

by Jane Polak Scowcroft

东非的一家初创公司正在利用对话式 AI 来传播第三波新冠肺炎 (COVID-19) 在该地区蔓延的消息。该公司希望其 Mbaza AI 聊天机器人能够利用这项技术解决非洲大陆许多语言的其他问题,从而促成合作。

开发该软件的初创公司 Digital Umuganda 的创始人兼首席执行官 Audace Niyonkuru 说:“不幸的是,新冠肺炎 (COVID) 仍然存在,这是一个不稳定的话题,伴随着每周都会收紧或放松的措施,因此人们能够获取最新信息至关重要。”

其团队总部设在卢旺达的首都基加利,计划于 8 月部署一项基本语音服务。他们将在年底之前推出一个能够解释和回答口述问题的版本。

对话式 AI 能够传达信息

在谈到这个 1200 万人口中有四分之三识字、农村人口占多数的国家时,Niyonkuru 说:“人们说话比写作更容易,因此我们的文化是一种更加口语化的文化,仍然存在获取障碍。”

在拥有 2000 多种语言和方言的非洲,这是一个普遍存在的挑战。但是身为终身企业家的 Niyonkuru,更倾向于持半杯满的乐观心态。

他说:“全球存在巨大机遇,对话式 AI 成为跨越障碍获取信息的桥梁,帮助人们使用手机获取各种医疗或法律信息。”

AI 中应用 Common Voice

要训练对话式 AI 模型,您需要一个极大的语音样本数据集,而这些数据集需要花费大量构建时间或大量购买资金。这家初创公司使用 Mozilla Common Voice(由 Mozilla 创建并由 NVIDIA 支持的公开可用的免费多语言平台和数据集)训练其模型。Common Voice 数据集的构建离不开世界各地成千上万名参与者的贡献。

对于该平台而言,Digital Umuganda 是非洲地区的最大贡献者。迄今为止,该公司组织参与者创建了 2200 小时的卢旺达语(卢旺达及其周围 4000 万人使用的语言))数据集。这是目前 Common Voice 中规模仅次于英语的第二大数据集。

为创建数据集,这家初创公司充分利用了卢旺达的传统,即每月的最后一个星期六,邻居们都会聚集在一起从事社区活动。这家初创公司采用并扩展了这种名为 umuganda 的做法。

他说:“开源软件的精神植根于卢旺达的文化中,而我们只是将其应用于数字世界和数据集。”

大家共享贡献

Digital Umuganda 一开始在大学的学生聚会中收集数据,然后前往农村,确保数据集能代表各个年龄段的人。

Niyonkuru 说:“美妙之处在于它是开放的,我们可以看到世界各地的研究人员都在使用它。”

卢旺达政府的两个部门已经表示有兴趣使用该初创公司的技术,并且至少有一个第三方已经使用数据集创建了对话式 AI 模型。

新冠肺炎 (COVID) 项目于去年春天启动,当时高峰期多达 1 万个关于疫情信息的呼叫,使政府呼叫中心不堪重负。Mbaza 聊天机器人将作为一种全天候信息服务部署在现有的政府医疗健康线路上。

无论是对于开发该技术的公司还是使用该技术的客户而言,这都是 Common Voice 如何在全球范围内普及对话式 AI 的一个例子。

让更多语言发声

Common Voice 数据集于 2017 年首次推出,每年发布两次更新版本。它侧重于加大对非主流语言的支持,填补通常注重少数美国、亚洲和欧洲热门语言的商业语音项目留下的大量空白。

Common Voice 目前包含超过 1 万小时的录制语音样本,均由志愿者收集和验证。对于没有时间或资金来收集或购买自己的数据集的初创公司、研究人员和中小型开发商而言,这是一个宝库。

新版本将于 7 月底发布,提供 75 种语言的数据,其中 15 种语言为首次登陆 Common Voice。其中包括南亚 7000 万人使用的乌尔都语、6000 万非洲人使用的豪萨语,以及阿塞拜疆语、亚美尼亚语、塞尔维亚语和维吾尔语等不受主流商业 AI 服务支持的语言。

这将是自 NVIDIA 于 2021 年 4 月成为 Mozilla 合作伙伴以来的第一个版本,支持 Common Voice 作为能够为每个人提供对话式 AI 的共同愿景的一部分。

您如何提供帮助

我们创建了 NVIDIA Riva 框架,为开发者提供先进的预训练深度学习模型和软件工具,从而打造交互对话式 AI 服务。现在,我们也在帮助创建这个丰富的开放式数据集。

欢迎大家加入此全球性工作,访问 Common Voice 并贡献或验证语音样本,将其作为人人均可免费使用的数据集的一部分,使所有语言的所有开发者都能使用这项技术。

上图:Digital Umuganda 联合创始人 Ali Nyiringabo(右)与志愿者在基加利的一次活动中为 Common Voice 收集和验证样本。