借助由 NVIDIA 超级芯片提供支持的 NVIDIA CUDA-X 库,各类科学家和工程师能够更快地解决棘手问题。
NVIDIA GTC 全球 AI 大会上宣布,开发者现在可以通过 CUDA-X 与新一代超级芯片架构的协同,实现 CPU 和 GPU 资源间深度自动化整合与调度,相较于传统加速计算架构,该技术可使计算工程工具运行速度提升至原来的 11 倍,计算规模增加至 5 倍。
这极大地加速并改进了工程模拟、设计优化等方面的工作流程,帮助科学家和研究人员更快地取得突破性成果。
NVIDIA 于 2006 年推出了 CUDA,开启了加速计算的应用新纪元。历经多年发展,NVIDIA 已经构建了 900 多个专业领域的 NVIDIA CUDA-X 库和 AI 模型,推动加速计算的应用,并催生多项重大的科学突破。如今,CUDA-X 将加速计算拓展至一系列新的工程领域,包括天文学、粒子物理学、量子物理学、汽车、航空航天及半导体设计。
NVIDIA Grace CPU 架构可显著提升显存带宽,同时降低功耗。NVIDIA NVLink-C2C 互连技术可提供超高带宽,使 GPU 和 CPU 能够共享存储单元,从而让开发者简化专用代码编写、处理更大规模的计算任务,并提高应用性能。
借助 NVIDIA cuDSS 加速工程求解器
NVIDIA 的超级芯片架构使用户能够更高效地利用 CPU 和 GPU 处理能力,从而可以从相同的底层 GPU 中获得更高的性能。
NVIDIA cuDSS 库专为解决涉及稀疏矩阵的大型工程模拟问题而设计,可广泛用于设计优化、电磁模拟工作流程等应用。cuDSS 通过 Grace GPU 显存与高带宽 NVLink-C2C 互连技术,实现对超出设备显存容量限制的大型矩阵的分解和求解,从而使用户能够在极短时间内解决极其庞大的问题。
GPU 和 Grace GPU 之间的一致共享存储单元可最大限度地减少数据迁移,从而显著降低大型系统的运行开销。对于各类大规模计算工程问题,通过 Grace CPU 存储单元和超级芯片架构,在相同 GPU 和 cuDSS 混合显存技术下,可将最耗时的求解环节速度提升至原来的 4 倍。
Ansys 已将 cuDSS 集成到其 HFSS 求解器中,显著增强了电磁模拟的性能。借助 cuDSS,HFSS 软件可将矩阵求解器速度提升至原来的 11 倍。
Altair OptiStruct 采用了 cuDSS Direct Sparse Solver 库,极大加速了其有限元分析的工作负载。
这些性能的提升是通过优化 GPU 上的关键操作,同时智能地使用 CPU 进行共享存储单元以及异构 CPU 和 GPU 执行来实现的。cuDSS 可自动检测利用 CPU 能提供额外优势的区域,从而进一步提高效率。
借助超级芯片显存以超快速度进行扩展
NVLink-CNC 互联技术可提供 CPU 和 GPU 之间的显存一致性,从而在单个 GPU 上扩展显存受限的应用程序。
许多工程模拟都受到规模的限制,需要进行大量模拟才能生成设计包含复杂组件(如飞机引擎)的设备所需的分辨率。通过利用在 CPU 和 GPU 显存之间无缝读写的能力,工程师可以轻松实现核外求解器来处理更大的数据。
NVIDIA cuQuantum 助力量子计算研究
量子计算机有望加速解决许多科学和工业学科的核心问题。缩短有用量子计算的时间,很大程度上取决于模拟极其复杂的量子系统的能力。
模拟使研究人员能够在当下开发新算法,以适应未来的量子计算机规模。此外,它们还在优化量子处理器、运行复杂的性能仿真,以及新量子比特设计的噪声特性方面发挥着关键作用。
量子算法的所谓状态向量模拟需要对存储在显存中的指数级大规模向量执行矩阵运算。而张量网络模拟则通过张量收缩来模拟量子算法,对于特定重要类别的应用,能够实现成百上千个量子比特的模拟规模。
NVIDIA cuQuantum 库可加速这些工作负载。cuQuantum 与每个领先的量子计算框架集成,因此所有量子研究人员都可以在不更改代码的情况下利用模拟性能。
详细了解 CUDA-X 库,参加 GTC 会议以了解数学库如何帮助加速 NVIDIA Blackwell GPU 上的应用程序,并观看 NVIDIA 创始人兼首席执行官黄仁勋的 GTC 主题演讲。