更快的人工智能、更低的成本:我们演示如何将人工智能的工作速度加快 100 倍

作者 英伟达中国

更快的人工智能,更低的成本:我们正在展示如何让AI工作速度提高100倍

加快推理速度是人工智能研究的热门课题,它能帮助经过训练的神经网络更快地作出决策和预测。

这并不奇怪,因为快速、可靠的判断能带来丰厚的回报。精于此道的人通常能走上职业生涯的巅峰。

想象一下,金融交易员凭借优异的第六感拿下大单,或者网球选手能够看穿对手的一举一动。他们不只是知识渊博,他们还行动迅速。

现在,想象一下为这些专业人士赋予超人般的速度。

在本周的“计算机视觉和模式识别”大会上,NVIDIA 将演示 NVIDIA DGX Station(运行 NVIDIA TensorRT,并且仅使用我们为其配备的四块 Tesla V100 中的一块)如何使常见推理任务的执行速度比没有 GPU 的系统快 100 倍。

此视频中,左侧的系统仅安装了 Intel Skylake 架构的 CPU,它使用经过 Resnet-152 训练的分类网络每秒可将五幅花卉图像分类。这个速度已经远超人类能力。

相比之下,右侧的单个 V100 GPU 每秒可将令人眼花缭乱的 527 幅花卉图像分类,返回结果的延迟短于 7 毫秒,堪称超人般的壮举。

虽然性能加快 100 倍令人印象深刻,但这只是事情的一面。尽可能快地运行会引发多少成本 – NVIDIA 所谓的“光速”是什么?

值得注意的是,运行速度越快,成本越低。如果一个搭载了 NVIDIA GPU 的系统完成的工作量与 100 个仅装有 CPU 的系统相同,则意味着要租用或购买的云服务器将减少 100 倍。

隐含的成本:延迟的成本

Wrnch 是一家由小牛队老板 Mark Cuban 资助并入选 NVIDIA 创始计划的初创公司,其首席执行官 (CEO) 兼创始人 Paul Kruszeski 指出,在对比 CPU 和 GPU 的推理性能时,延迟的成本是要考虑的另一种重要成本。

Wrnch 使用 NVIDIA GPU 和我们的 NVIDIA TensorRT 推理优化器及运行库作为基础,开发出它最近发布的 BodySLAM 人工智能引擎。该引擎能实时阅读肢体语言,为交互式儿童玩具带来好玩的应用。

“如果我只使用 CPU 来运行我的应用程序,孩子们可能要等待一分半钟才能享受到三秒钟的乐趣。”Kruszeski 说道,“一分半钟对孩子来说太漫长了。”

要详细了解搭载 Tesla V100 GPU 加速器的 NVIDIA DGX Station,请访问 www.nvidia.com/dgx-station

NVIDIA 开发人员计划的成员可免费下载 NVIDIA TensorRT,使用它加快数据中心、汽车、机器人、无人机和其他边缘设备内部的 NVIDIA GPU 的人工智能推理速度。详情请访问 https://developer.nvidia.com/tensorrt