如果每天伊始,您就要在上班途中缓慢穿行于拥挤的车流,您一定会希望将四车道的公路加宽为八车道。
同样,应用程序也会遭遇“交通拥堵”。如果 CPU 与 GPU 之间为数不多又极为狭窄的数据通道(即 PCI Express (PCIe) 总线)无法处理这些数据流,就会出现这种状况。
GPU 的确可以迅速处理海量数据。但是,要充分利用这项功能,需要不断向 GPU 注入大量数据。而 PCIe 互联通常无法跟上这一速度。
为避免此类“交通拥堵”,我们发明了一种用于 CPU 和 GPU 之间以及各 GPU 之间的快速互联技术。它就是 NVLink。
这是世界上最快的 GPU 高速互联技术。NVIDIA NVLink 为下一代 HPC 服务器开辟出一条数据高速公路。借助这种通道,GPU 和 CPU 彼此之间的数据交换速度要比使用 PCIe 时快 5 到 12 倍。
以下视频介绍了 NVLink 的工作原理。
借助 NVLink,应用程序的运行速度可加快两倍:
去年,NVLink 一经发布就引起了业界关注。IBM 正致力于将其集成到未来的 POWER CPU 中。同时,美国能源部宣布,GPU 和 NVLink 将用于驱动其下一代旗舰版超级计算机。
基于我们即将推出的 Pascal 架构,NVLink 将可以用于 GPU。不过下方描述了它是如何通过加快数据在多 GPU 配置中的移动速度来提升应用程序性能的,我们可以先睹为快。
FFT 算法速度提升 2 倍
快速傅里叶变换 (FFT) 是一种算法,广泛运用于震波图分析、信号处理、图像处理以及偏微分方程。
FFT 通常运行在通过 PCIe 总线将两个 GPU 连接到一个 CPU 插槽的服务器上。为分配 FFT 工作负载,这两个 GPU 会交换大量数据。但 PCIe 总线成了数据交换的瓶颈,GPU 仅能以每秒 16 千兆字节 (GB/s) 的速度分享数据。
通过 NVLink 连接两个 GPU 可使其通信速度提高至 80 GB/s,比之前快了 5 倍。
借助 NVLink,基于 FFT 的工作负载的运行速度比基于 PCIe 的系统快两倍多。
可将 AMBER 的运行速度提升 50%
AMBER 是一种分子动力学应用程序,用于从原子层面研究物质(如癌细胞)的行为。借助 GPU,研究人员可以更准确地在 AMBER 上模拟分子结构,同时还可以将运行时间从数周缩短为数天。
研究人员正在构建更为密集的服务器配置,用于运行 AMBER 和其他工作负载。许多配置支持将多达 4 个 GPU 连接到一个 CPU 插槽。
AMBER 在各 GPU 之间进行模拟时,需要不断交换数据。PCIe 运行速度极慢。但是使用 NVLink 连接 4 个 GPU 时,AMBER 的运行速度可提升 30% 到 50%。
要了解详情,请下载 NVLink 白皮书。
顶部图片出处:“夜晚的高速公路”,由 BY-YOUR-⌘ 提供。