在纽约使用 GPU 简化了语言识别工作

作者 英伟达中国

从一开始的不顺走到今天,语音识别的发展经历了漫长的过程,而如今这项技术用于与手机、汽车和计算机等进行互动。

不过,拜卡内基梅隆大学与 Google Brain 的研究人员所赐,速度更快、更精准的与语音识别技术即将问世。

在周二的 GPU 技术大会上,卡内基梅隆大学博士生 William Chan 对听众们表示研究人员对语音识别采取了新方法。

“我们舍弃传统的语音识别技术,用比较简单的模型来取而代之,”Chan 说。

深度学习+

研究报告的首席作者 Chan 说,多数语音识别应用程序需要多个步骤的复杂流程来将语音转成文字,像是它们必须有发音字典(还有开发字典的专业人员),以定义每个字的每个发音。

虽然多数语音识别应用程序皆使用深度学习技术训练神经网络来理解语言,但 CMU-Google 则是更进一步,不再需要专业人员来开发字典。

“我们的模型完全是以数据来驱动,直接从声音(语音)来学习,”Chan 说。模型从人类建立的抄本中学习与语音相关的文字,在使用足够的抄写文本进行训练后,模型能够处理声音并将其自行转成文字。

准确率达到最佳水平

报告指出,在测试活动里,CMU-Google 工具的表现胜过或相当于目前顶尖语音识别系统的正确率。

Chan 说,CMU-Google 工具无需投入大量数据元素,适合移动设备使用。

Chan 说:“我们的目标是直接将声音变成英文字符,一个简单又直接的模型。”

报告的其他作者有来自 Google Brain 的 Navdeep Jaitly、Quoc Le 和 Oriol Vinyals。Google Brain 是许多需要 GPU 提供运算能力的深度学习研究项目之一。