蒸汽推动了工业时代的发展,数字时代通过软件带来了转变。如今,生成式 AI、代理式 AI 和 AI 推理的发展是 AI 时代的标志,它让模型能够处理更多数据以进行学习和推理,从而解决复杂的问题。
正如工业工厂将原材料转化为商品一样,现代企业也需要 AI 工厂将数据快速转化为可扩展、准确且可靠的洞察。
编排这种新的基础设施要比建造蒸汽驱动的工厂复杂得多。先进的模型需要超级计算规模的资源。这意味着,任何停机都有可能破坏数周的进展并降低 GPU 利用率。
为使企业和开发者能够高效管理和运营 AI 工厂,NVIDIA 在 NVIDIA GTC 全球 AI 大会上宣布推出 NVIDIA Mission Control,这是一个统一运营和编排软件的平台,可自动执行 AI 数据中心和工作负载的复杂管理。
NVIDIA Mission Control 可在多方面增强 AI 工厂运营。从配置部署到验证基础设施,再到运行开发者工作负载,它可以帮助企业更快地部署和运行前沿模型。
NVIDIA Mission Control 旨在快速高效地将基于 NVIDIA Blackwell 的系统从预训练轻松过渡到后训练(以及现在的测试时扩展)。该软件使企业能够在基于 Blackwell 的 NVIDIA DGX 系统和 NVIDIA Grace Blackwell 系统上轻松地切换训练和推理工作负载,动态地重新分配集群资源以匹配不断变化的优先事项。
此外,Mission Control 还包含 NVIDIA Run:ai 技术,可简化开发、训练和推理的操作及任务编排,将基础设施利用率提升高达 5 倍。
与依赖人工干预的传统方法相比,Mission Control 自主恢复功能在快速检查点和自动分层重启功能的支持下,可将任务恢复速度提升高达 10 倍,从而提高 AI 训练和推理效率,保持 AI 应用正常运行。
Mission Control 依托于 NVIDIA 数十年在超级计算方面的专业能力而构建,可让企业最大限度地减少管理 AI 基础设施所花费的时间,从而轻松运行模型。它可以自动处理所有基于 NVIDIA Blackwell 的 NVIDIA DGX 系统以及 NVIDIA Grace Blackwell 系统的 AI 工厂基础设施生命周期,包括戴尔科技、慧与 (HPE) 、联想和 Supermicro,让全球各行各业都能更轻松地使用先进的 AI 基础设施。
通过将 Mission Control 与全球 45 个市场的 Equinix AI 就绪型数据中心预配置的 NVIDIA Instant AI Factory 服务结合使用,企业可以进一步简化和加速 NVIDIA DGX GB300 和 DGX B300 系统的部署。
先进的软件为企业提供不间断的基础设施管理
Mission Control 可自动执行端到端的基础设施管理 (包括调配、监控和错误诊断),以实现不间断操作。此外,它还会持续监控应用程序和基础设施堆栈的每一层,以预测并识别停机和低效的来源,从而节省时间、能源和成本。
NVIDIA Mission Control 软件的其他优势包括:
- 通过新的自动化和标准化应用编程接口简化集群设置和配置,通过集成的库存管理和可视化加快部署时间。
- 为简化的 Slurm 和 Kubernetes 工作流提供无缝的工作负载编排。
- 能源优化功率配置文件平衡功耗要求,并通过开发者可选控制针对各种类型的工作负载调整 GPU 性能。
- 自主任务恢复,无需人工干预即可识别、隔离并恢复效率低下的任务,从而更大限度地提高开发者的工作效率和基础设施弹性。
- 自定义面板,用于跟踪关键性能指标,并可访问集群的关键遥测数据。
- 按需进行状态检查,以验证整个基础设施生命周期中的硬件和集群性能。
- 楼宇管理集成可增强与楼宇管理系统的协调,从而为功耗和冷却事项提供更多控制,包括快速泄漏检测。
领先的系统制造商将 NVIDIA Mission Control 搭载到 Grace Blackwell 服务器
领先的系统制造商计划提供搭载 NVIDIA Mission Control 的 NVIDIA GB200 NVL72 和 GB300 NVL72 系统。
戴尔科技计划将 NVIDIA Mission Control 软件作为 Dell AI Factory with NVIDIA 的一部分。
戴尔科技首席技术官兼高级副总裁 Ihab Tarazi 表示:“AI 工业革命需要高效的基础设施,并且要快速适应业务的发展。Dell AI Factory with NVIDIA 可提供全面的计算、网络、存储和服务。通过将 NVIDIA Mission Control 软件与 Dell PowerEdge XE9712 和 XE9680 服务器搭配使用,企业可以轻松扩展模型,以满足训练和推理的需求,比以往更快地将数据转化为切实可行的洞察。”
慧与将提供搭载 NVIDIA Mission Control 软件的慧与 NVIDIA GB200 NVL72 和慧与系统 GB300 NVL72。
慧与 HPC 与 AI 基础设施解决方案高级副总裁兼总经理 Trish Damkroger 表示:“我们正在帮助服务提供商和尖端企业快速部署、扩展和优化能够训练万亿参数模型的复杂 AI 集群。作为与 NVIDIA 合作的一部分,我们将提供 NVIDIA Grace Blackwell 机架级扩展系统和 Mission Control 软件,以及慧与的全球服务和直接液冷专业知识,为新的 AI 时代提供动力支持。”
联想计划使用 NVIDIA 系统更新其联想 Hybrid AI Advantage,以纳入 NVIDIA Mission Control 软件。
联想企业及中小企业业务部门和 AI 基础设施解决方案全球副总裁兼总经理 Brian Connors 表示:“通过将 NVIDIA Mission Control 软件与 NVIDIA 系统结合到联想 Hybrid AI Advantage 中,企业能够以无与伦比的敏捷性满足生成式和代理式 AI 工作负载的需求。通过自动编排基础设施及训练和推理工作负载之间的无缝过渡,联想和 NVIDIA 帮助客户以业务发展速度扩展 AI 创新。”
Supermicro 计划将 NVIDIA Mission Control 软件整合到其 Supercluster 系统中。
Supermicro首席增长官 Cenly Chen 表示:“Supermicro 很荣幸能够与 NVIDIA 合作开发 Grace Blackwell NVL72 系统,该系统完全由 NVIDIA Mission Control 软件提供支持。NVIDIA Mission Control 软件在搭载 NVIDIA Grace Blackwell 的 Supermicro AI SuperCluster 系统上运行,为客户提供无缝管理软件套件,以更大限度地提高当前 NVIDIA GB200 NVL72 系统和未来 NVIDIA GB300 NVL72 等平台的性能。”
Base Command Manager 为 AI 集群管理提供免费启动
为帮助企业管理基础设施,NVIDIA Base Command Manager 软件预计很快将免费提供,每个系统可支持多达八个加速器,适用于任何集群规模,并且可以选择单独购买 NVIDIA 企业级支持服务。
可用性
适用于 NVIDIA DGX GB200 和 DGX B200 系统的 NVIDIA Mission Control 现已推出。戴尔、慧与、联想和 Supermicro 预计将很快推出搭载 Mission Control 的 NVIDIA GB200 NVL72 系统。
NVIDIA Mission Control 预计将于今年晚些时候用于最新的 NVIDIA DGX GB300 和 DGX B300 系统,以及全球领先提供商的 GB300 NVL72 系统。
查阅相关软件产品信息说明。