生成式 AI 部署的急剧增加正在推动各行业企业的业务创新。但这也给他们的 IT 团队带来了巨大挑战,因为漫长而复杂的基础设施部署周期导致他们无法使用自己的数据快速启动 AI 工作负载。
为了帮助克服这些障碍,NVIDIA 推出了针对 NVIDIA OVX 计算系统的 Storage Partner Validation Program。率先完成 NVIDIA OVX 存储验证的高性能存储系统包括 DDN、Dell PowerScale、NetApp、Pure Storage 和 WEKA。
NVIDIA OVX 服务器将高性能 GPU 加速计算与高速存储访问和低延迟网络相结合 ,可应对一系列复杂的 AI 和图形密集型工作负载。例如,聊天机器人、摘要和搜索工具需要大量数据,而高性能存储对于更大限度提升系统吞吐量至关重要。
为了帮助企业将正确的存储设备与 NVIDIA 认证的 OVX 服务器配对,新计划为合作伙伴提供了验证其存储设备的标准化流程。他们可以使用验证 NVIDIA DGX BasePOD 参考架构存储所需的相同框架和测试。
想要通过验证,合作伙伴必须完成一套 NVIDIA 测试,测量存储性能以及跨多个参数的输入/输出扩展,这些参数代表了各种企业 AI 工作负载的严苛要求。这包括不同 I/O 大小的组合、不同数量的线程、缓冲 I/O 与直接 I/O、随机读取、重新读取等。
每个测试都会运行多次,以验证结果并收集所需的数据,然后由 NVIDIA 工程团队审核以确定存储系统是否通过测试。
该计划提供规范性指导,以确保使用 NVIDIA OVX 系统的企业 AI 工作负载获得最佳存储性能和可扩展性。但其整体设计仍然灵活,因此客户可以定制系统和存储选择,以适应现有的数据中心环境,并将加速计算用于数据所在的任何地方。
生成式 AI 用例与传统企业应用程序有着不同的要求,因此 IT 团队必须仔细考虑其计算、网络、存储和软件的选择,以确保高性能和可扩展性。
NVIDIA 认证系统经过测试和验证,可为 AI 工作负载提供企业级性能、可管理性、安全性和可扩展性。与从头开始独立构建相比,这些系统灵活的参考架构有助于提供更快、更高效且更具成本效益的部署。
OVX 服务器由 NVIDIA GPU 提供支持,服务器中包含 NVIDIA AI Enterprise 软件与 NVIDIA Quantum-2 InfiniBand 或 NVIDIA Spectrum-X 以太网,以及 NVIDIA BlueField-3 DPU。这些服务器针对生成式 AI 工作负载进行了优化,包括:针对小型 LLM(例如 Llama 2 7B 或 70B)的训练,微调现有模型,以及高吞吐量和低延迟的推理。
NVIDIA 验证的 OVX 服务器现已推出,包括技嘉、惠普和联想在内的全球系统供应商正在提供支持。在与 NVIDIA 的协作下,系统制造商能够为这些服务器提供全面的企业级支持。
供应情况
经过验证的 NVIDIA 认证 OVX 服务器存储解决方案现已推出,各个存储和系统供应商将在未来几周内发布参考架构。
了解有关 NVIDIA OVX 系统的更多信息。