最近,Microsoft 研究人员使用 GPU,在称为图像识别系统测试标杆的「ImageNet」上取得创纪录的结果。
与去年的结果相比,Microsoft 系统的 top-5 错误率减半,可在 1000 种预定义的类别中正确分类图像,创下高于 96% 的正确率。该系统是一个 152 层的神经网络,比目前最先进系统的深度还要深近 5 倍。
通过使用 GPU 创建强大的神经网络,引发人工智能的复兴潮,而此项突破也应运而生。直到最近,要求电脑处理简单的图像识别任务 (例如识别图片中的小鸟) 还会导致最先进的系统瘫痪。
深入研究
此景不再。新的神经网络算法与利用海量宝贵数据和强大 GPU 的能力相融合,掀起了一场称为「深度学习」的革命。研究人员正在构建一些系统,它们能比人类更准确地识别照片甚至视频。
利用 GPU,深度学习训练过程可以在更少的服务器上运行得更快。这将帮助用户快速构建和优化新的训练模型,最终开发出极其准确的新型深度学习应用程序。
创纪录的结果
如今,企业、政府和学术界的研究人员竞相构建各种系统,力求在多项广泛采用的基准测试中取得更好的成绩。
最新的突破来自 Microsoft。北京研发中心的研究人员构建了破纪录的 152 层神经网络,在以下两项重要的 ImageNet 基准测试中取得最高分:本地化和检测。
在另一项重要基准测试中,也即在 Microsoft Common Objects in Context (又称为 MS COCO) 挑战赛中,Microsoft 团队在图像检测和分割方面拔得头筹。MS COCO 挑战赛由 Microsoft 发起,现由一群独立的学者监督。
Microsoft 研究院也在尝试使用其近期开放源码的 CNTK 深度学习框架,在 ImageNet 深度学习测试中取得更好的结果。CNTK 与 Azure GPU Lab 集成后,使 Microsoft 内部语音识别任务的执行速度比之前系统快 10 倍。
比人类更优秀
图像识别是 GPU 驱动的深度学习最为瞩目的应用之一。让机器比人类更准确地识别图像是研究人员多年来不停追求的终极目标。
今年早些时候,Microsoft 研究院宣布开发出超越人类准确度的图像识别系统,这意味着终极目标已经实现。
但是,图像识别仅是机器学习众多应用中的一种。GPU 对于语音识别也至关重要。Microsoft 将其用作通过 Skype Translator 进行实时翻译的基础。