在近期于硅谷举行的 AI 基础设施峰会上,NVIDIA 加速计算副总裁 Ian Buck 提出了一个新愿景:将传统数据中心转变为完全集成的 AI 工厂。
作为这一计划的一部分,NVIDIA 正在开发可与全球合作伙伴和企业共享的参考设计,提供 NVIDIA Omniverse Blueprint,用于构建针对 AI 推理时代优化的高性能、高能效基础设施。
NVIDIA 已经在与该技术栈各个层面的众多公司展开合作,合作领域涵盖建筑设计、电网整合,再到电力、冷却和编排等方面。
这意味着,公司的业务范围已从芯片和系统扩展到新的工业产品类型——这类产品极为复杂且相互关联,没有任何一家企业能够单独构建它们。
NVIDIA 与众多工业和技术合作伙伴携手,正在重塑数十年的基础设施专业知识,以打造这种新型 AI 工厂。
在这些合作伙伴中,Jacobs 担任设计集成商,帮助协调基础设施的物理层和数字层,以确保无缝编排。
该参考设计的体现形式是 AI 工厂的数字孪生。此数字孪生将数据中心内部的 IT 系统与数据中心内外电力和冷却系统的运营技术整合在一起。
这项新举措对数字孪生进行了扩展,可集成本地发电、能源存储系统、冷却技术和用于运营的 AI 智能体。
施耐德电气、西门子和 Vertiv 等电力和冷却领域的长期合作伙伴在为 AI 级工作负载打造弹性、高效的环境方面发挥了重要作用。
西门子和西门子能源公司在本地供电方面发挥着至关重要的作用,满足了对可快速部署的持续电力的需求,以满足这些设施的十亿瓦级能源需求。GE Vernova 则是在发电和机架电气化方面开展合作。
这些公司 (包括 Cadence、Emerald AI、E Tech Group、phaidra.ai、PTC、Schneider Electric with ETAP、西门子和 Vertech) 连同不断壮大的基础设施设计、仿真和编排领域的合作伙伴生态系统专家,正在助力 NVIDIA 推动系统级转型。
这一愿景的核心在于一项根本性挑战:如何优化进入设施的每瓦特能量,使其直接用于智能生成。
在当今的数据中心范式中,建筑物的设计通常独立于其所在的计算平台,导致配电、冷却和系统编排效率低下。
NVIDIA 及其合作伙伴正在改变这一模式。
通过协同设计基础设施和技术栈,NVIDIA 实现了真正的系统级优化,将电力、冷却、计算和软件设计为一个统一的整体。
仿真在这种转变中发挥着核心作用。
企业将能够共享仿真就绪型资产,从而使设计师能够在组件实际可用之前使用 AI 工厂数字孪生在 Omniverse 中对其进行建模。
这些数字孪生不仅能在 AI 工厂建成前对其进行优化,还能在工厂投入运行后进行管理。
通过采用 OpenUSD 框架,仿真平台可以准确地对设施运营的各个方面 (从电力和冷却到网络基础设施) 进行建模。这种开放且可扩展的方法允许创建物理属性准确的资产,从而设计出更智能、更可靠的设施。
而这种复杂性并不仅限于设施内部。
AI 工厂必须接入更广泛的系统 (电网、供水和交通网络),这些系统需要在整个生命周期中进行统筹协调和模拟,以确保可靠性和可扩展性。
这项工作已经开始。
今年早些时候,NVIDIA 推出了适用于 AI 工厂数字孪生的 Omniverse Blueprint。该蓝图连接了 Cadence 和 ETAP 等平台,允许合作伙伴在选择单个物理 AI 工厂场地之前,插入其核心工具来对十亿瓦级设施进行建模。
最近,NVIDIA 通过与台达、Jacobs、西门子和西门子能源的集成扩展了其生态系统,实现了电力、冷却和网络系统的统一仿真。
该蓝图将于明年完成,届时,合作伙伴可以通过应用编程接口和仿真就绪型数字资产插入系统,从而在从设计到部署再到运营的整个生命周期中实现实时协作和编排。
得益于这项工作,传统设施独立运行,AI 工厂的设计将具有可组合性、弹性和规模。
关注 NVIDIA GTC 华盛顿特区大会,与开发者、行业领导者和创新者一起探索 AI 基础设施的新突破,并从专家会议、实战培训和合作伙伴展示中学习。
请参阅有关软件产品信息的通知。
