NVIDIA 下一代 Pascal GPU 架构将在深度学习应用中的速度提高 10 倍

计划于明年面世的 NVIDIA Pascal GPU 架构将使深度学习应用加速，其速度要 10 倍于这一代的 Maxwell 处理器。

在硅谷召开的 GPU 技术研讨会上，NVIDIA 首席执行官兼联合创始人 Jen-Hsun Huang 在其主题演讲中向在座的 4000 位与会人员披露了 Pascal 的技术细节和公司最新的处理器路线图。

“得益于过去三年我们在研发工作上取得的成果，我们将从这个价值数十亿美元的改良产品中获益。”他告诉听众。

深度学习指的是计算机使用神经网络自主学习的过程，这一领域的兴起推动 NVIDIA 提出了 Pascal 的设计（在去年的 GTC 上最先公布）。

Pascal GPU 具有三个关键设计特性，能够在训练更为复杂的深度神经网络（类皮层数据结构，是深度学习研究的基础）时大大提升速度和精度。

凭借 32GB 内存（是最新发布的 NVIDIA 旗舰产品 GeForce GTX TITAN X 的 2.7 倍），Pascal 将具备混合精度计算性能；它支持 3D 堆叠显存，可使在深度学习应用中的性能提高多达 5 倍；它还将配备 NVLink（NVIDIA 高速互联技术，可连接两个或更多 GPU）使 Pascal 在深度学习应用中的性能总共提高 10 倍。

在关键深度学习任务上，Pascal 展现出优于 Maxwell 的性能。

混合精度计算 – 精度更高

混合精度计算使基于 Pascal 架构的 GPU 能够在 16 位浮点精度下拥有两倍于 32 位浮点精度下的速率的计算速度。

更强的浮点性能可使深度学习的两大关键活动分类和卷积因此受益，同时又能达到所需的精度。

3D 堆叠显存 – 更快的通信速度和更优的能效

内存带宽限制了数据向 GPU 传输的速度。3D 堆叠显存技术的引入可以带来 3 倍于 Maxwell 架构的带宽和近 3 倍的帧缓冲容量，让开发人员能够建立更大的神经网络，大大提升深度学习训练中带宽密集型部分的速度。

Pascal 采用内存芯片逐个堆叠的技术，位置临近 GPU 而不是处理器板更往下的地方。这样，数据位由内存传输到 GPU 再返回的距离就由几英寸缩短为几毫米。这大大提高了通信速度并改进了能效。

NVLink – 更快的数据移动

将 NVLink 引入 Pascal 会使 GPU 和 CPU 之间的数据传输速度较现有的 PCI-Express 标准加快 5 至 12 倍，对于深度学习这类需要高 GPU 间传输速度的应用来说是一大福音。

NVLink 还可以将系统中的 GPU 数量增加一倍，在深度学习计算中共同发挥作用。此外，CPU 和 GPU 可以通过全新的方式连接，较 PCI-E 标准来说在服务器设计上灵活性和能效更高。

使用 Ustream 播放直播视频