NVIDIA提供全球最先进AI系统NVIDIA DGX A100帮助对抗COVID-19

一站式训练、推理、数据分析平台;
每台系统都极富灵活性,可配置为1个GPU或多至56个独立的GPU,
软件定义的数据中心基础架构
作者 charank

加利福尼亚州圣克拉拉市 – GTC 2020大会 – 2020514  NVIDIA于今日推出了NVIDIA DGX™ A100,这是全球最先进AI系统的第三代产品,具有高达5Petaflops 的AI性能,并且首次将整个数据中心的性能和功能集成到一个灵活的平台中。

即刻起,DGX A100系统已开始向全球供应。首批订单将送往美国能源部(U.S. Department of Energy ,DOE)的阿贡国家实验室(Argonne National Laboratory)。该实验室将运用该集群的AI和计算力来更好地研究和应对COVID-19。

NVIDIA创始人兼首席执行官黄仁勋表示:“NVIDIA DGX A100是专为先进AI打造的高性能系统。NVIDIA DGX是首个为端到端机器学习工作流——从数据分析到训练再到推理构建的AI系统。借助于全新DGX的巨大性能飞跃,面对呈指数级速度增长的AI模型和数据,机器学习工程师们能够保持领先。”

DGX A100系统集成了8个全新NVIDIA A100 Tensor Core GPU,具有320GB内存用以训练最大型的AI数据集,以及最新的高速NVIDIA Mellanox® HDR 200Gbps互连。

利用A100的多实例GPU功能,每台DGX A100系统能够被分割为多达56个实例,用于加速多个小型工作负载的处理速度。凭借这些功能,企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源,加快数据分析、训练和推理等各种工作负载的速度。

DGX A100的快速普及与客户的大力支持

多家全球大型企业、服务供应商和政府机构已订购了前几批DGX A100。首批系统已于本月早些时候交付给了阿贡国家实验室。

阿贡国家实验室计算机、环境和生命科学实验室副主任Rick Stevens表示:“我们正在使用美国最强大的超级计算机来对抗COVID-19,利用NVIDIA DGX A100等最新技术运行AI模型和模拟。全新DGX A100系统为阿贡国家实验室所带来的计算力将帮助研究人员探索治疗方法和研发疫苗、研究病毒的传播方式,使科学家能够利用AI加速工作,在数月甚至数日内完成以前需要数年才能完成的工作。”

佛罗里达大学(University of Florida)将成为美国首所采用DGX A100系统的高等院校。该大学将把DGX A100系统应用于其课程当中,培养具备AI能力的人才。

佛罗里达大学校长Kent Fuchs表示:“佛罗里达大学希望成为美国人工智能领域的领导者,NVIDIA 是帮助我们实现这一目标的重要合作伙伴。我们的全新NVIDIA DGX A100系统将帮助我们各个学科的研究人员解决一些全球最紧迫的难题,并使得新一代的学生能够掌握这项将彻底改变未来工作的技能。”

其他早期采用者还包括:

  • 德国汉堡-埃彭多夫大学医学中心(University Medical Center Hamburg-Eppendorf)的生物医学人工智能中心—其将使用DGX A100推进临床决策支持和流程优化。
  • 朱拉隆功大学(Chulalongkorn University—泰国顶尖研究型大学,将使用DGX A100加速泰国的创新研究,例如自然语言处理、自动语音识别、计算机视觉和医学成像等。
  • 德国人工智能研究中心(German Research Center for Artificial Intelligence DFKI将使用DGX A100系统进一步加快其在新型深度学习方法及其可解释性方面的研究,同时大幅减少空间使用和能耗。
  • Element AI—一家总部位于蒙特利尔的AI解决方案和服务开发商,其正在部署DGX A100,用于加快其Orkestrator GPU调度器的性能、优化功能,以满足不断增长的AI训练和应用需求。
  • Harrison.ai—一家位于悉尼的AI医疗公司,将部署澳大利亚的首批DGX A100系统,用于加快AI医疗设备的开发速度。
  • 阿联酋人工智能办公室(The UAE Artificial Intelligence Office–中东首个部署全新DGX A100的机构。该机构正在建设能够帮助公共部门和私营机构加快AI研究、开发和应用速度的国家级基础设施。
  • VinAI Research—位于河内和胡志明市的越南一流AI研究实验室,将使用DGX A100进行有影响力的研究并加速AI的应用。

目前全球范围内有数千台前代DGX系统被全球众多政府部门和私营企业机构所使用,其中包括一些全球领先的汽车制造商、医疗健康机构、零售商、金融机构和物流公司等。它们正在推动AI在其行业中的发展。

NVIDIA打造新一代DGX SuperPOD ,性能达700 Petaflops

A large white building

Description automatically generated

NVIDIA还展示了新一代DGX SuperPOD。该集群由140台DGX A100系统组成, AI计算能力高达700 Petaflops。利用Mellanox HDR 200Gbps InfiniBand互连技术,NVIDIA将140台DGX A100系统结合在一起,构建了DGX SuperPOD AI超级计算机,用于公司内部对话式AI、基因组学和自动驾驶等领域的研究。

该集群是全球速度最快的AI超级计算机之一,其性能相当于此前数千台服务器的性能。凭借DGX A100的企业就绪型架构和性能,NVIDIA得以在不到一个月的时间内构建了该系统,而以往交付具备这样能力的超级计算机需要花费数月甚至数年的时间来计划和采购专用的组件。

为帮助客户构建他们自己的由A100赋能的数据中心,NVIDIA发布了全新DGX SuperPOD参考架构。该参考架构为客户提供了指引蓝图,使客户能够参照NVIDIA所采取的设计原则和最佳实践经验,构建他们自己的基于DGX A100的AI超级计算集群。

DGXpert计划DGX-Ready软件

NVIDIA还推出了NVIDIA DGXpert 计划,帮助DGX客户与NVIDIA的AI专家建立联系;此外还有NVIDIA DGX-Ready 软件计划,帮助客户在AI工作流程中充分利用各种经过认证的企业级软件。

DGXperts是一群精通AI的专家。他们可以帮助指导客户完成从计划、实施到持续优化的整个AI部署流程,还可以帮助DGX A100客户构建和维护最先进的AI基础架构。

NVIDIA DGX-Ready软件计划可帮助客户快速找到和使用经NVIDIA测试的第三方MLOps软件,帮助客户提高数据科学生产效率、加速AI工作流程并增加AI基础架构的可访问性和利用率。该计划的首批NVIDIA认证合作伙伴有:Allegro AI、cnvrg.io、Core ScientificDomino Data LabIguazio Paperspace

DGX A100 技术规格

  • 8个NVIDIA A100 Tensor Core GPU, AI性能达5Petaflops,GPU内存共320GB, 有着每秒12.4TB的带宽。
  • 6个采用第三代NVIDIA NVLink® 技术的NVIDIA NVSwitch™互联结构, 4.8TB每秒的双向带宽。
  • 9个Mellanox ConnectX-6 HDR 200Gb/s网络接口,提供总计每秒3.6TB的双向带宽。
  • Mellanox网络计算和网络加速引擎,例如RDMA、GPUDirect®,以及SHARP™技术(Scalable Hierarchical Aggregation and Reduction Protocol),实现最高性能和可扩展性。
  • 15TB Gen4 NVMe内存,速度比Gen3 NVMe SSDs快2倍。
  • NVIDIA DGX软件堆栈,其中包括专为AI和数据科学工作负载而优化的软件,能够实现性能的最大化,使企业能够更快获得AI基础架构投资回报。

一个由5台DGX A100系统组成的机架可代替一个包括了AI训练和推理基础设施的数据中心,而且功耗仅是其1/20,所占用的空间是其1/25,成本是其1/10。

供应情况

NVIDIA DGX A100系统售价199,000美元起,并现已通过NVIDIA全球合作伙伴网络经销商开始供货。DDN Storage、Dell Technologies、IBM、NetApp、Pure Storage和Vast等存储技术供应商也计划将DGX A100集成到其产品当中,包括其各自基于NVIDIA DGX POD和DGX SuperPOD参考架构推出的产品。

NVIDIA DGX-Ready数据中心合作伙伴在26个国家/地区的超过122个站点提供主机托管服务,为寻求高性价比设施的客户管理他们的DGX基础架构。通过此项服务,客户能够在这些经过验证的世界一流数据中心设施内存放并访问DGX A100基础架构。

敬请访问www.nvidia.com/DGX-A100了解更多信息,包括详细的技术规格和订购信息。