NVIDIA 下一代 Pascal GPU 架构将在深度学习应用中的速度提高 10 倍

作者 英伟达中国

计划于明年面世的 NVIDIA Pascal GPU 架构将使深度学习应用加速,其速度要 10 倍于这一代的 Maxwell 处理器

在硅谷召开的 GPU 技术研讨会上,NVIDIA 首席执行官兼联合创始人 Jen-Hsun Huang 在其主题演讲中向在座的 4000 位与会人员披露了 Pascal 的技术细节和公司最新的处理器路线图。

“得益于过去三年我们在研发工作上取得的成果,我们将从这个价值数十亿美元的改良产品中获益。”他告诉听众。

深度学习指的是计算机使用神经网络自主学习的过程,这一领域的兴起推动 NVIDIA 提出了 Pascal 的设计(在去年的 GTC 上最先公布)。

Pascal GPU 具有三个关键设计特性,能够在训练更为复杂的深度神经网络(类皮层数据结构,是深度学习研究的基础)时大大提升速度和精度。

凭借 32GB 内存(是最新发布的 NVIDIA 旗舰产品 GeForce GTX TITAN X 的 2.7 倍),Pascal 将具备混合精度计算性能;它支持 3D 堆叠显存,可使在深度学习应用中的性能提高多达 5 倍;它还将配备 NVLink(NVIDIA 高速互联技术,可连接两个或更多 GPU)使 Pascal 在深度学习应用中的性能总共提高 10 倍。


在关键深度学习任务上,Pascal 展现出优于 Maxwell 的性能。

混合精度计算 精度更高

混合精度计算使基于 Pascal 架构的 GPU 能够在 16 位浮点精度下拥有两倍于 32 位浮点精度下的速率的计算速度。

更强的浮点性能可使深度学习的两大关键活动分类和卷积因此受益,同时又能达到所需的精度。

3D 堆叠显存 – 更快的通信速度和更优的能效

内存带宽限制了数据向 GPU 传输的速度。3D 堆叠显存技术的引入可以带来 3 倍于 Maxwell 架构的带宽和近 3 倍的帧缓冲容量,让开发人员能够建立更大的神经网络,大大提升深度学习训练中带宽密集型部分的速度。

Pascal 采用内存芯片逐个堆叠的技术,位置临近 GPU 而不是处理器板更往下的地方。这样,数据位由内存传输到 GPU 再返回的距离就由几英寸缩短为几毫米。这大大提高了通信速度并改进了能效。

NVLink 更快的数据移动

将 NVLink 引入 Pascal 会使 GPU 和 CPU 之间的数据传输速度较现有的 PCI-Express 标准加快 5 至 12 倍,对于深度学习这类需要高 GPU 间传输速度的应用来说是一大福音。

NVLink 还可以将系统中的 GPU 数量增加一倍,在深度学习计算中共同发挥作用。此外,CPU 和 GPU 可以通过全新的方式连接,较 PCI-E 标准来说在服务器设计上灵活性和能效更高。

使用 Ustream 播放直播视频