更快的人工智能，更低的成本：我们正在展示如何让AI工作速度提高100倍

加快推理速度是人工智能研究的热门课题，它能帮助经过训练的神经网络更快地作出决策和预测。

这并不奇怪，因为快速、可靠的判断能带来丰厚的回报。精于此道的人通常能走上职业生涯的巅峰。

想象一下，金融交易员凭借优异的第六感拿下大单，或者网球选手能够看穿对手的一举一动。他们不只是知识渊博，他们还行动迅速。

现在，想象一下为这些专业人士赋予超人般的速度。

在本周的“计算机视觉和模式识别”大会上，NVIDIA 将演示 NVIDIA DGX Station（运行 NVIDIA TensorRT，并且仅使用我们为其配备的四块 Tesla V100 中的一块）如何使常见推理任务的执行速度比没有 GPU 的系统快 100 倍。

在此视频中，左侧的系统仅安装了 Intel Skylake 架构的 CPU，它使用经过 Resnet-152 训练的分类网络每秒可将五幅花卉图像分类。这个速度已经远超人类能力。

相比之下，右侧的单个 V100 GPU 每秒可将令人眼花缭乱的 527 幅花卉图像分类，返回结果的延迟短于 7 毫秒，堪称超人般的壮举。

虽然性能加快 100 倍令人印象深刻，但这只是事情的一面。尽可能快地运行会引发多少成本 – NVIDIA 所谓的“光速”是什么？

值得注意的是，运行速度越快，成本越低。如果一个搭载了 NVIDIA GPU 的系统完成的工作量与 100 个仅装有 CPU 的系统相同，则意味着要租用或购买的云服务器将减少 100 倍。

隐含的成本：延迟的成本

Wrnch 是一家由小牛队老板 Mark Cuban 资助并入选 NVIDIA 创始计划的初创公司，其首席执行官 (CEO) 兼创始人 Paul Kruszeski 指出，在对比 CPU 和 GPU 的推理性能时，延迟的成本是要考虑的另一种重要成本。

Wrnch 使用 NVIDIA GPU 和我们的 NVIDIA TensorRT 推理优化器及运行库作为基础，开发出它最近发布的 BodySLAM 人工智能引擎。该引擎能实时阅读肢体语言，为交互式儿童玩具带来好玩的应用。

“如果我只使用 CPU 来运行我的应用程序，孩子们可能要等待一分半钟才能享受到三秒钟的乐趣。”Kruszeski 说道，“一分半钟对孩子来说太漫长了。”

要详细了解搭载 Tesla V100 GPU 加速器的 NVIDIA DGX Station，请访问 www.nvidia.com/dgx-station。

NVIDIA 开发人员计划的成员可免费下载 NVIDIA TensorRT，使用它加快数据中心、汽车、机器人、无人机和其他边缘设备内部的 NVIDIA GPU 的人工智能推理速度。详情请访问 https://developer.nvidia.com/tensorrt。