cuQuantum与 PennyLane推动超级计算机上的量子模拟大幅加速

有很多研究人员都致力于借助新的软件，快人一步在超级计算机上运行量子计算模拟。美国能源部布鲁克海文国家实验室（Brookhaven National Laboratory）的计算科学家兼机器学习小组负责人Shinjae Yoo就是其中之一。在距离长岛大西洋海岸10英里处，他的“引擎”已经发动。

Yoo的“引擎”，即美国国家能源研究科学计算中心（NERSC）的Perlmutter超级计算机正在使用多伦多公司Xanadu的量子编程框架——PennyLane的最新版本。该开源软件以NVIDIA cuQuantum软件开发工具套件为基础，使模拟能够在搭载 NVIDIA GPU 的高性能集群上运行。

像Yoo这样的研究人员需要处理海量数据集，因此性能成为了关键要素。Yoo将在Perlmutter上的多达256颗NVIDIA Tensor Core GPU上运行他的程序，模拟约三十多个量子比特（量子计算机所使用的巨大计量单位）。

这大约是目前大多数研究人员所能模拟的量子比特数量的两倍。

强大且易用

加速量子系统大规模模拟的工作是复杂的，而这一多节点版PennyLane与NVIDIA cuQuantum SDK的结合能够使其得以简化。

Yoo表示：“这打开了一扇大门，让实习生也能运行一些最大规模的模拟，这让我为之兴奋。”目前，他的团队有六个项目正在使用PennyLane。

布鲁克海文国家实验室的Shinjae Yoo准备在Perlmutter超级计算机上扩展他的量子工作。

他的工作是推动高能物理和机器学习的发展。还有其他研究人员致力于使用量子模拟，推动化学和材料科学的发展水平至新高。

量子计算在企业研发中心也得到了应用。

例如，Xanadu正在帮助Rolls-Royce等公司开发量子算法，为可持续航空业设计最先进的喷气发动机，还帮助大众汽车集团发明更强大的电动汽车电池。

Perlmutter上的另外四个项目

与此同时，美国国家超级计算中心（NERSC）量子计算项目负责人Katherine Klymko表示，今年至少还有四个项目正在使用多节点Pennylane，其中包括美国国家航空航天局艾姆斯研究中心和阿拉巴马大学的项目。

她表示：“化学领域的研究人员想要深入研究分子复合物，而这些分子复合物通常太大，以致传统计算机无法处理。而有了像Pennylane这样的工具，他们就能够扩展目前在传统计算机上所做的工作，为最终在大型量子计算机上运行算法做好准备。”

融合AI与量子概念

PennyLane来自于一个新颖的想法。它将反向传播等常用的深度学习技术与 PyTorch等工具应用于量子计算机编程。

Xanadu让所设计的代码能够在尽可能多的不同类型的量子计算机上运行，因此该软件在2018年的一篇论文中被提出后，很快就在量子界引起了关注。

Xanadu产品总监、量子物理学家Josh Izaac回忆道：“我们的内容吸引了大家，大家都因为前沿研究变得触手可及而十分兴奋。”Izaac是该论文的作者之一，同时也是PennyLane的开发者。

想要更多量子比特

负责 PennyLane 性能的Xanadu高级量子软件开发人员 Lee J. O’Riordan 表示：“我想要增加量子比特。”

O’Riordan表示：“当我们在2022年开始在单颗GPU上使用 cuQuantum 时，我们的整体速度几乎提升了10倍……我们希望到今年年底能扩展到 1,000 个节点，即4,000颗GPU，这可能需要模拟超过40个量子比特。”

科学家们仍在思考他们利用这一性能能够解决的问题——或者说他们希望解决的问题。

设计量子计算机的公司将利用量子计算机的性能提升来测试构建更强大系统的想法。他们的工作推动了PennyLane中新软件功能的实现，进而又提高了系统性能，形成了一个良性循环。

通过GPU实现良好扩展

O’Riordan很早就发现GPU是扩展PennyLane性能的最佳工具。去年，他与他人联合撰写了一篇论文，介绍了一种在100多个GPU上拆分量子程序的方法。该方法可以模拟60多个量子比特，它们被拆分成许多30量子比特的子电路。

他表示：“我们希望将我们的工作扩展到更大的工作负载上，所以当我们听说NVIDIA将为cuQuantum增加多节点功能时，我们希望尽快为其提供支持。”

于是不到四个月，多节点PennyLane就诞生了。

O’Riordan表示：“对于一个大型分布式GPU项目来说，这样的项目推进速度是很快的。cuQuantum的每一个人都帮助我们尽可能轻松地完成了这一集成。”

Xanadu的一篇博客详细介绍了开发人员如何利用PennyLane和cuQuantum 模拟超过30个量子比特的大规模系统。

该团队现在仍在收集数据。但到目前为止，在“基于样本的工作负载上，我们看到了近乎线性的扩展速度”，O’Riordan表示。也许正如NVIDIA创始人兼首席执行官黄仁勋所说：“买得越多，省得越多”。