高速通道中的数据：NVLink 如何释放应用程序性能

如果每天伊始，您就要在上班途中缓慢穿行于拥挤的车流，您一定会希望将四车道的公路加宽为八车道。

同样，应用程序也会遭遇“交通拥堵”。如果 CPU 与 GPU 之间为数不多又极为狭窄的数据通道（即 PCI Express (PCIe) 总线）无法处理这些数据流，就会出现这种状况。

GPU 的确可以迅速处理海量数据。但是，要充分利用这项功能，需要不断向 GPU 注入大量数据。而 PCIe 互联通常无法跟上这一速度。

为避免此类“交通拥堵”，我们发明了一种用于 CPU 和 GPU 之间以及各 GPU 之间的快速互联技术。它就是 NVLink。

这是世界上最快的 GPU 高速互联技术。NVIDIA NVLink 为下一代 HPC 服务器开辟出一条数据高速公路。借助这种通道，GPU 和 CPU 彼此之间的数据交换速度要比使用 PCIe 时快 5 到 12 倍。

以下视频介绍了 NVLink 的工作原理。

借助 NVLink，应用程序的运行速度可加快两倍：

去年，NVLink 一经发布就引起了业界关注。IBM 正致力于将其集成到未来的 POWER CPU 中。同时，美国能源部宣布，GPU 和 NVLink 将用于驱动其下一代旗舰版超级计算机。

基于我们即将推出的 Pascal 架构，NVLink 将可以用于 GPU。不过下方描述了它是如何通过加快数据在多 GPU 配置中的移动速度来提升应用程序性能的，我们可以先睹为快。

FFT 算法速度提升 2 倍

快速傅里叶变换 (FFT) 是一种算法，广泛运用于震波图分析、信号处理、图像处理以及偏微分方程。

FFT 通常运行在通过 PCIe 总线将两个 GPU 连接到一个 CPU 插槽的服务器上。为分配 FFT 工作负载，这两个 GPU 会交换大量数据。但 PCIe 总线成了数据交换的瓶颈，GPU 仅能以每秒 16 千兆字节 (GB/s) 的速度分享数据。

通过 NVLink 连接两个 GPU 可使其通信速度提高至 80 GB/s，比之前快了 5 倍。

借助 NVLink，基于 FFT 的工作负载的运行速度比基于 PCIe 的系统快两倍多。

可将 AMBER 的运行速度提升 50%

AMBER 是一种分子动力学应用程序，用于从原子层面研究物质（如癌细胞）的行为。借助 GPU，研究人员可以更准确地在 AMBER 上模拟分子结构，同时还可以将运行时间从数周缩短为数天。

研究人员正在构建更为密集的服务器配置，用于运行 AMBER 和其他工作负载。许多配置支持将多达 4 个 GPU 连接到一个 CPU 插槽。

AMBER 在各 GPU 之间进行模拟时，需要不断交换数据。PCIe 运行速度极慢。但是使用 NVLink 连接 4 个 GPU 时，AMBER 的运行速度可提升 30% 到 50%。

要了解详情，请下载 NVLink 白皮书。

顶部图片出处：“夜晚的高速公路”，由 BY-YOUR-⌘ 提供。