Google 如何利用 GPU 实现语音、视频、图像识别革命

by 英伟达中国

玩家们,事实就是如此。你们已经被取代了。

Google 利用一种叫做深度学习的最新技术制造了一台机器,它可以玩 50 款经典 Atari 电子游戏。你绝没见过可以这样玩的“太空侵略者”。

讲述这台机器是怎么玩游戏的。

当然,没有什么比得过 GeForce GTX 980。

不过,Google 高级研究员 Jeff Dean 在周三的年度 GPU 技术研讨会主题演讲中解释道,Google 正在用与驱动电子游戏相同的 GPU 技术做一些几乎所有人都认为现在不可能实现的事情。


深度学习使得计算机有能力完成几年前几乎所有人都认为不可能短期实现的工作。

Dean 是 Google 核心工程师团队的一员,这个团队成功开发了新一代技术,重新定义了支撑网络的基础架构。

现在 Dean 和他的同事正在向新的领域进发,即语音、视觉、语言建模、用户预测和翻译,这些领域曾经似乎只能在科幻小说里才能实现。Google 研究人员甚至可以用机器操控经典电子游戏,例如“Breakout”。

构建数字“大脑”

这项工作的基础是以人类大脑为模型构建神经网络。不过只是大致相似。当今的数字大脑与人类大脑的相似程度,只不过像机翼之与鸟的翅膀。

“我们并没有尝试在非常深的化学递质层模拟大脑,而是对其进行了高度抽象。”Dean 说。

与生物大脑一样,这种新型数字大脑以精密算法为基础,从头开始教会机器执行复杂任务,正如通过向小孩子展示很多示例,教会他识别不同种类的球的过程一样。

这听起来可能很简单,但其实训练一台计算机学会如何执行这些任务可以节省大量时间。“我们关注的其中一点是减少人员工作量,”Dean 说,“我们更青睐一种深度学习算法,使算法本身自动构建更高层级的抽象。”


Google 正在使用算法处理任务,这些算法可以处理人类程序员需要花费很长时间才能完成的任务。

经过训练,这些模型可以嵌入现实生活的应用中。例如,从 2012 年开始,Google Android 智能手机软件就已经开始使用基于深度学习技术的预测性语音识别。Android Jellybean 中的内置软件和 Google 功能强大的服务器是这个系统的基础。据 Dean 介绍,Google 现在已在超过 50 款产品应用中使用了深度学习。

Google 正在为推动深度学习的发展而努力。它的搜索业务使其可以拥有海量的文字和图片数据。Google 还围绕其业务构建起巨大的分布式计算架构,使其有能力迅速处理数据。

现在,Google 要将 GPU 加入这个架构中,赋予其训练神经网络的能力,以迅速处理各种各样的任务。而旨在一次执行大量任务的平行计算能力也被内置在 GPU 中,Google 工程师因此得以快速训练系统。

运用这些系统,Google 有能力完成几年前计算机不可能完成的工作,比如房屋地址识别、照片分类和语音转录。


数千位与会者聆听 Google 研究员 Jeff Dean 介绍搜索巨头 Google 是如何利用 GPU 加速深度学习的。

“这些模型有一个非常强大的功能,它们能够以一种模态获取输入,并将其转化为另一种模态,”Dean 说,“比如获取像素并将其转化为文字。”

玩游戏

最精彩的演示当然离不开电子游戏。Dean 介绍了伦敦的一组同事所进行的工作,他们建立了一个深度学习系统,将其应用在 50 款经典 Atari 电子游戏中,并要求系统夺取最高分。

尽管机器在刚开始时履步维艰,但是经过数百次游戏的洗礼,它表现出超人的能力。它在“太空侵略者”中撕破了敌方阵营,非常专业地在“Enduro”中迂回前进。

“我想是时候一断高下了,”Dean 边说边向大家展示了 Google 深度学习系统在一款电子拳击游戏中暴打倒霉对手的视频。