机器自主学习、混音识别、自动语言翻译:NVAIL合作伙伴开创性深度学习研究亮相ICLR

作者 英伟达中国

ICLR(International Conference on Learning Representations)对于深度学习领域的研究人员而言意义非凡。该会议于4月30日 – 5月3日在温哥华举行,全球顶尖AI研究实验室的专家齐聚一堂,分享了他们的最新研究。NVIDIA的三大NVAIL(NVIDIA AI实验室)合作伙伴——瑞士AI实验室 (IDSIA)、纽约大学和东京大学,也和其他实验室一起分享了他们的研究成果。

IDSIA研究人员的目标是让机器人能像人类一样自然而然地理解物质世界;东京大学的团队介绍了其改进声音识别的创新方法;来自纽约大学和巴斯克大学的研究团队介绍了他们如何改进机器翻译语言的能力。

在研究人员和工程师的协助下,NVAIL项目将助力AI先驱始终引领潮流,并为学生提供支持,获得先进的GPU计算能力。

万物有起终有落

人类生来就能理解物质世界:我们能够在从未去过的房间中自如行走;如果鞋子掉了,我们知道会掉在地板上;我们也非常清楚我们不能穿越墙壁。即使是婴儿也具备一些基本的物理概念。

但机器却不能如此轻易地获得这种能力。“如今,训练深度学习模型来理解‘万物有起终有落’这样的问题需要大量的数据和手动标记,”IDSIA博士生Sjoerd van Steenkiste说道。他和来自IDSIA以及加州大学伯克利分校的研究团队协作,正在试图去除海量数据和认为参与这两项要求,以求简化这一流程。

在一篇ICLR论文中,研究人员描述了他们如何在不投入人力的前提下训练神经网络,这一方式被称为“无监督式学习”。利用NVIDIA的DGX-1 AI超级计算机,他们训练深度学习模型在场景中辨别单个对象并预测动作的结果。

最终,该研究能使得训练机器人及其他机器与其环境进行交互变得更简单,van Steenkiste指出。

混音

某些东西混合在一起就会变得更好:花生酱和巧克力的搭配堪称完美;金属结合后更结实、更坚固;将两种农作物种在一起产量会更高。

Yuji Tokozume将同样的概念应用到了深度学习之中。这位博士生和另外两名东京大学的研究人员正致力于通过使用他们称之为“between-class”的声音(即两种混合在一起的声音)来训练深度学习模型,从而提高声音识别能力。该模型在NVIDIA的Tesla P100 GPU加速器上接受训练,以辨别两种声音并确定一种声音与另一种声音的比率。

在他们的ICLR论文中,其报告称,“between-class”学习不仅提供了比现有技术更高的准确性,而且在被称为ESC-50的标准数据集中超越了人类在环境记录上的表现。该团队运用了同样的方法来提高AI图像识别性能。

观看最近在硅谷举行的GPU技术大会上有关声音识别的“between-class”学习方面的讨论,了解更多信息。

翻译能力的缺失

虽然AI在自动语言翻译方面取得了一定成就,但对于巴斯克语、奥罗莫语和盖丘亚语等不常见的语言却作用不大。这是因为训练深度学习模型通常需要大型的数据集,这在语言领域中意味着需要大量已被手动翻译为其他语言的文字。

对于汉语、英语和西班牙语等广泛使用的语言,可以找到丰富的数据,因此可以直接将汉语翻译成英语,或将西班牙语翻译成汉语。纽约大学和巴斯克大学的研究人员旨在将这一能力赋予使用者较少的语言。

巴斯克大学博士生Mikel Artetxe指出,目前像巴斯克语这样的语言(大约有70万人讲这种语言,他们主要位于跨西班牙和法国的地区)必须首先被翻译成英语或其他主要语言,然后才能转化为其他语言。

奥罗莫语这样的语言也是如此,非洲之角有超过三千万人使用奥罗莫语,而南美洲有多达一千一百万人使用盖丘亚语。

研究团队利用NVIDIA GPU训练神经网络来执行这些翻译,并且无需任何手动翻译的训练数据,而是依赖于两种语言的独立文本。在他们的ICLR论文中,研究人员表示,当他们添加少量并行数据时,准确度有所提高,但仍远低于人工翻译的准确性。

“我们的目标是能够翻译更多的语言并取得更好的结果”,Artexe说道。