毛利语语音 AI 模型助力保护和推广新西兰原住民语言

广播公司 Te Hiku Media 的自动语音识别模型使用可信 AI 和 NVIDIA NeMo 工具套件,以 92% 的准确率转录毛利语。
作者 Angie Lee

原住民语言正受到威胁。根据联合国教科文组织 (UNESCO)的预测,在本世纪末前,约 3,000 种原住民语言 (占总数的四分之三) 可能会消失,即每两周就有一种语言消失。

作为保护原住民语言运动中的一分子,新西兰的 Te Hiku Media(一家专注于保护和推广毛利人的原住民语言——毛利语的广播公司)正在使用可信 AI 帮助保护和振兴毛利语。

Te Hiku Media 目前正在开发毛利语(一种波利尼西亚语言)的自动语音识别(ASR)模型,以道德而透明的语音数据采集和分析方法维护毛利人的数据主权。

这些语音-文本模型使用开源的 NVIDIA NeMo 工具套件和 NVIDIA Tensor Core GPU 构建而成,毛利语转录准确率高达 92%,它还可以转录使用英语和毛利语的双语语音,准确率为 82%。这些由毛利人制造并为其服务的重要工具能够帮助保存和传播毛利人的故事。

Te Hiku Media 首席技术官 Keoni Mahelona 表示:“使用 NVIDIA 的开源技术来构建我们所需要的工具,对于最终实现使命,即保护、推广和振兴毛利语具有巨大的价值。”Keoni Mahelona 领导着一支由数据科学家、开发人员、毛利语言专家和数据管理员组成的团队开展该项目。

作为现居新西兰的夏威夷原住民,Mahelona 同时提到:“我们还在帮助指导业界以合乎道德的方式使用数据和技术,以确保它们被用于帮助边缘化社区。”

打造“语言之家”

Te Hiku Media 创立于三十多年前,当时还是一家广播电台,以确保毛利语在广播中占有一席之地为目标。这些年来,该公司将电视广播也纳入到考量中。随着互联网的兴起,Te Hiku Media 于 2013 年与社区的长老们召开了一次会议,共同制定数字时代的内容共享策略。

Mahelona 表示:“长老们一致认为,我们应该让社区成员能够在网上看到这些故事,而不是将资料保存在磁带中。一旦目标确立,我们所面临的挑战就是如何以正确的方式去完成,并与我们珍视主权的牢固根基保持一致。”

Te Hiku Media 决定建立自己的内容发布平台,而不是将视频和音频资源上传到流行的全球平台,因为在使用条款和条件中,这些平台会要求签署转让与内容相关的某些权利。

这个名为“Whare Kōrero”(意为“语言之家”)的自建平台目前拥有超过 30 年的数字化档案资料,其中包括约 1,000 小时的毛利语母语者(其中一些人出生于 19 世纪末)的录音,以及来自第二语言学习者和双语毛利人的最新录音。

现在,约有 20 家毛利语广播电台使用并将其内容上传到 Whare Kōrero。社区成员可以通过应用访问这些内容。

Mahelona 提到:“这是一个宝贵的声音数据资源库。”

开始使用可信 AI

Te Hiku Media 团队很快意识到,对于那些致力于振兴语言的人来说,这样的资料库具有不可思议的价值,但如果采取人工转录的方式,就需要在有限的资源中抽出大量的时间和精力。于是,该公司在 2016 年启动了可信 AI 方面的工作,通过使用 ASR 来加快工作进度。

Mahelona 表示:“在我们位于新西兰最北部的废弃、破旧、散发着麝香气味的大楼里,没有人会知道有八张 NVIDIA GPU 正在训练和构建毛利语语言模型。而这项工作给我们带来了彻底的改变。”

为了以透明、合乎伦理且以社区为中心的方式采集语音数据,Te Hiku Media 向长老们解释了自己的工作、赢得了支持,并请他们来到电台大声朗读短语。

Mahelona 表示:“得到长老们的支持和录制他们的声音非常重要,因为这正是我们想要记录的内容。但这些工作最终没能扩大规模,我们还需要第二语言学习者、儿童、中年人和更多的语音数据。”

为此,该公司发起了一项名为 Kōrero Māori 的众包活动,基于毛利传统价值观念,采集高度标记化的语音样本,以确保 Te Hiku Media 只将数据用于毛利人民的利益。

在短短 10 天内,就有超过 2,500 人注册,共阅读了 20 多万个短语,并提供了 300 多个小时的标记语音数据,这些数据被用于构建和训练毛利语 ASR 模型。

除了其他开源可信 AI 工具外,Te Hiku Media 还在整个流程中使用 NVIDIA NeMo 工具套件的 ASR 模块来实现语音 AI。NeMo 工具套件由被称为神经模块的构件组成,并包含用于语言模型开发的预训练模型

Mahelona 表示:“NVIDIA 的开源 NeMo 使我们的 ASR 模型能够识别双语,并自动为转录内容添加标点符号,这真是不可思议。”

Te Hiku Media 的 ASR 模型是在线毛利语转录服务 Kaituhi 背后的引擎。

这些努力激励了夏威夷原住民和加拿大东南部的莫霍克人开展类似的 ASR 项目。

Mahelona 提到:“由原住民主导的可信 AI 工作正在鼓励其他原住民群体思考:‘如果他们能做到的话,我们也能做到’。”

进一步了解 NVIDIA 支持的可信 AINVIDIA NeMo 工具套件及其如何实现泰卢固语语音 AI 的突破

China AI Day 精彩来袭!GTC 2024 大会 China AI Day 线上专场将于 3 月 19 日上午 10:00 举办。China AI Day 是 NVIDIA 为国内 AI 开发者、技术领袖和决策人举办的中文演讲专场,共分为四大主题:LLM AI Infra、LLM 云上工具链、LLM 推理及性能分析、LLM 应用。系列演讲将深入探讨 LLM 性能的极致优化,覆盖架构、训练、推理、量化、AI 工作流 RAG 等多个维度,并为您详细呈现 LLM 在互联网核心应用、芯片设计等领域的案例。立即注册 GTC 大会,查看和收藏 China AI Day 专场演讲目录。