Jetson 以绝对优势赢得了图像分类效率竞赛

by 英伟达中国

图像识别系统变得日益精密,然而这些系统的效率仍然比不上我们头盖骨里面的大脑的运作效率。

我们的 Jetson TX1 嵌入式计算模块日前在列为 IEEE 重启计算计划之一、于得克萨斯州奥斯汀市举行的低功耗图像识别竞赛的两个竞赛组里皆获佳绩,企图拉近计算机系统和人脑系统之间的差距。

我们在 Jetson 的 GPU 计算架构的电源效率方面投入了大量资源。在游戏和专业设计中,这意味着在功率预算有限的情况下,可以达到浮动帧率的目标。然而在计算机视觉领域中,每瓦特性能可让无人机或机器人等自主机器快速控制回路和近乎实时的响应能力。

jetson challenge
LPIRC 2016 冠军团队及主办方。

NVIDIA 的 David Kirk 和 Yung-Hsiang Lu 在普渡大学求学、Alex Berg 在北卡罗莱纳大学教堂山分校求学时,认为在功率预算有限的情况下进行图像识别是一件值得挑战的事,由此展开了低功耗图像识别竞赛。Yung-Hsiang 说,头两年还是牛刀小试,只有一小群研究人员在进行。他打算日后扩大比赛规模,包括提供更大的奖项。

打造智能无人机、头戴式显示器以及手机的物体识别功能等精密复杂的计算机视觉应用程序时,必须考虑到电源效率因素。人类大脑识别物体(以及完成其他任务)需要消耗掉 20 瓦特的功率。相比之下,超级计算机、数据中心和工作站上运行的表现超佳的分类器需要消耗数千瓦特。

Jetson 带来最高的正确率、最低的功耗

竞赛当天,参赛团队带来他们的硬件,并使用 Python 参考脚本登录服务器。接着,服务器为每个系统提供多达 20,000 张图像,让其在 10 分钟内进行识别。竞赛的主办方将每个团队的硬件连接到一台功率计上。

各队的目标是以最高的正确率、使用最低的功耗来分类图像。服务器将分类器的正确率除以设备的平均耗电量,以计算最后的得分。

jetson challenge 2
LPIRC 2016 参赛团队及主办方。

今年的冠军团队使用了运行新版 cuDNN 4.0 的 Jetson TX1,该队为第 1 组实施 Bing+ Fast-RCNN,为第 3 组在 Caffe 内实施 Faster-RCNN。

“TX1 拥有我们希望移动设备具备的一切特性:高吞吐量、低功耗,而且还能灵活选择精度模式,”冠军团队的主要负责人兼顾问 Wang Ying 说,“目前涌现出许多基于卷积神经网络 (CNN) 的识别框架:fast-rcnn、yolo 和 ssd 等,为我们提供了充分的选择空间,可以挑选出最适合用于本次竞赛和 TX1 硬件的框架。”

制胜策略:让 Jetson 的 CPU 和 GPU 忙于处理大量数据

中国科学院的王颖教授表示,制胜之道是平衡 CPU 和 GPU 之间的工作负载,始终让两者保持在全力计算的状态中。该队使用 NVIDIA Tesla K40 GPU 加速器进行“设计空间探索”,以便确定要在台式机 GPU 和 Jetson TX1 嵌入式系统上使用的最佳模型。

经过多次反复演练,他们发现模型修剪和奇异值分解可以缩减其 CNN 模型的规模。因此,该团队尝试使用 cuFFT 和 cuSparse 来优化管线,但找不到此类方法来提高速度。

这是非常聪明的做法,不过,如果我们想打造可以与人脑效率媲美的图像识别系统,让这项竞赛成为日后更值得关注的竞赛,研究人员还得多动动脑。