聚焦黄氏定律:NVIDIA 首席科学家 Bill Dally 介绍推动 GPU 性能提升的关键因素

作者 英伟达中国

在近期举行的处理器和系统工程师年度盛会 Hot Chips 上,NVIDIA 首席科学 Bill Dally 发表了主题演讲。在演讲中,其描述了后摩尔定律时代计算机性能正在发生结构性的变化。

他表示,每一款新处理器都具备独创性,需要经过不懈的努力,发明并验证新的电子元件。这与上一代产品的开发截然不同,当时的工程师主要依赖于芯片更小、更快的物理特性。

观看 Bill Dally 在 Hot Chips 主题演讲完整视频。

Dally 在 NVIDIA Research领导着一支300 多人的团队,过去十年间他们将单个 GPU 的 AI 推理性能提高了 1000 倍(详见下图)。

IEEE Spectrum最先以 NVIDIA 创始人兼首席执行官黄仁勋的名字将这一惊人的性能提升命名为 “黄氏定律(Huang’s Law) “,后来《华尔街日报》的一篇专栏文章又让该定律广为流传。

这样的飙升速度是对以同样惊人的速度崛起的大语言模型的回应,该模型用于生成式AI,并且每年都以数量级的速度增长。

Dally 说:”这为硬件行业的发展设定了步调,因为我们必须满足这种需求。”

在演讲中,Dally 详细介绍了推动性能提升 1000 倍的要素。

其中,提升幅度最大的一次达到了16 倍,这源于人们找到了更简单的方法来表示计算机运算使用的数字。

新的运算方法

最新的 NVIDIA Hopper 架构及其 Transformer 引擎采用 8 位和 16 位浮点与整数运算的动态组合。这种运算方法专为满足当今生成式 AI 模型的需求而量身定制。Dally 详细介绍了该运算方法带来的性能提升和节能效果。

Dally 领导的团队通过编写高级指令,指导 GPU 组织工作,实现了12.5 倍的性能提升。这些复杂的指令有助于以更低的能耗做更多的工作。

因此,计算机就可以像“专用加速器一样高效,同时保留 GPU 的所有可编程性”,Dally 介绍道。

此外,NVIDIA Ampere 架构还增加了结构化稀疏功能,这种创新方法可以在不影响模型精度的前提下简化了 AI 模型的权重。Dally 表示,这项技术将性能提高了两倍,并且未来有望实现更大的性能提升。

Dally 还介绍了系统中 GPU 之间的 NVLink 互联以及系统间的 NVIDIA 网络如何使单个 GPU 的性能提高 1000 倍。

 

进步之路不止步

Dally 指出,尽管 NVIDIA 在过去十年里将 GPU 的半导体节点从 28 纳米推进到 5 纳米,但这种技术仅仅贡献了性能提升总量的 2.5 倍。

与摩尔定律下的前一代计算机设计相比,这是巨大的转变。摩尔定律认为,随着芯片变得越来越小、越来越快,处理器的性能每隔两年翻一倍。

登纳德缩放比例定律(Dennard scaling)在某种程度上对此进行了描述。该定律由IBM 科学家 Robert Denard 在 1974 年与人合著的一篇论文中提出。但不幸的是,物理微缩遇到了自然限制,例如更小、更快的器件所能承受的热量。

前景乐观

Dally 表示,尽管摩尔定律提出的性能提升在放缓,但黄氏定律仍将继续存在,他对此充满信心。

例如,他概括介绍了未来的几个机会,包括进一步简化数字表示方式、在 AI 模型中创建更多稀疏性以及设计更优的内存和通信电路。

因为每一代新的芯片和系统都需要新的创新,所以这是属于计算机工程师的美好时代,Dally 补充说。

Dally 相信,计算机设计领域的新动态为 NVIDIA 工程师们提供了他们最渴望的三个机会:成为致胜团队的一员、与聪明人共事以及从事有影响力的设计。