NVIDIA 推出用于大型语言模型和生成式 AI 工作负载的推理平台

加利福尼亚州圣克拉拉 – GTC – 太平洋时间 2023 年 3 月 21 日 – NVIDIA 于今日推出四款推理平台。这些平台针对各种快速兴起的生成式 AI 应用进行了优化，能够帮助开发人员快速构建用于提供新服务和洞察的 AI 驱动的专业应用。

这些平台将 NVIDIA 的全栈推理软件与最新的 NVIDIA Ada、Hopper 和 Grace Hopper 处理器相结合，包括今天推出的 NVIDIA L4 Tensor Core GPU 和 NVIDIA H100 NVL GPU。各平台针对 AI 视频、图像生成、大型语言模型部署、推荐系统推理等需求激增的工作负载进行了优化。

NVIDIA 创始人兼首席执行官黄仁勋表示：“生成式 AI 的兴起需要更加强大的推理计算平台。生成式 AI 应用的数量是无限的，它唯一的限制就是人类的想象力。为开发人员提供最强大、灵活的推理计算平台将加快新服务的创造速度，这些新服务将以前所未有的方式改善我们的生活。”

加速生成式 AI 的各种推理工作负载集

每个平台都包含一个为特定生成式 AI 推理工作负载而优化的 NVIDIA GPU 和专用的软件：

适用于 AI 视频的 NVIDIA L4 可提供比 CPU 高出 120 倍的 AI 视频性能，同时能效提高了99%。这款适用于几乎所有工作负载的通用 GPU 提供更加强大的视频解码和转码能力、视频流式传输、增强现实、生成式 AI 视频等。
适用于图像生成的 NVIDIA L40 针对图形以及 AI 支持的 2D、视频和 3D 图像生成进行了优化。L40 平台是 NVIDIA Omniverse™（一个用于在数据中心构建和运行元宇宙应用的平台）的引擎，与上一代产品相比，其 Stable Diffusion 推理性能提高了 7 倍，Omniverse 性能提高了 12 倍。
适用于大型语言模型部署的 NVIDIA H100 NVL 是规模化部署像 ChatGPT 这样的大型语言模型（LLMs）的理想平台。这款新的 H100 NVL 拥有 94GB 内存和 Transformer 引擎加速，在数据中心规模，与上一代 A100 相比，GPT-3 上的推理性能提高了多达 12 倍。
适用于推荐模型的 NVIDIA Grace Hopper 是图形推荐模型、矢量数据库和图神经网络的理想平台。通过 NVLink-C2C 以 900 GB/s 的速度连接 CPU 和 GPU，Grace Hopper 的数据传输和查询速度比 PCIe 5.0 快了 7 倍。

这些平台的软件层采用NVIDIA AI Enterprise软件套件，包括用于高性能深度学习推理的软件开发套件NVIDIA TensorRT™，以及帮助实现模型部署标准化的开源推理服务软件NVIDIA Triton Inference Server™。

早期采用者与支持

谷歌云是 NVIDIA 推理平台的重要云合作伙伴和早期客户。该公司正在将 L4 平台整合到其机器学习平台 Vertex AI 中，并且是第一家提供 L4 实例的云服务提供商，其 G2 虚拟机的私人预览版已于今天推出。

NVIDIA 和谷歌今天分别宣布了首批在谷歌云上使用 L4 的两家机构——Descript 和 WOMBO，前者使用生成式 AI 帮助创作者制作视频和播客，后者提供”Dream”这一 AI 驱动的文本 – 数字艺术转换应用程序。

另一个早期采用者快手提供了一个短视频应用程序，利用 GPU 对传入的实时流媒体视频进行解码、捕捉关键帧并优化音视频。然后，它使用一个基于 Transformer 的大型模型理解多模态内容，从而提高全球数亿用户的点击率。

快手高级副总裁于越表示：“快手推荐系统所服务的社区每天的用户人数超过 3.6 亿，他们每天贡献 3000 万条 UGC 视频。在相同的总体拥有成本下，相较于 CPU，NVIDIA GPU 将系统的端到端吞吐量提高了 11 倍，将延迟降低了 20%。”

领先的生成式 AI 技术平台 D-ID，通过使用 NVIDIA L40 GPU 从文本中生成逼真的数字人，支持任何内容来生成人脸，不仅帮助专业人士改进视频内容，同时减少了大规模视频制作的成本和麻烦。

D-ID 研发副总裁 Or Gorodissky 表示：“L40 的性能十分惊人。有了它，我们将推理速度提高了一倍。D-ID 十分高兴能够将这个新硬件作为我们产品的一部分，以前所未有的性能和分辨率实现 AI 人的实时流传输，并降低我们的计算成本。”

领先的 AI 制作工作室 Seyhan Lee 使用生成式 AI 为电影、广播和娱乐行业开发沉浸式体验和迷人的创意内容。

Seyhan Lee 联合创始人 Pinar Demirdag 表示：“L40 GPU 为我们的生成式 AI 应用带来了惊人的性能提升。凭借 L40 的推理能力和内存容量，我们可以部署非常先进的模型，并以惊人的速度和精度向客户提供创新的服务。”

语言 AI 领域的先锋 Cohere 所运行的平台使得开发人员能够在保护数据隐私和安全的情况下，构建自然语言模型。

Cohere 首席执行官 Aidan Gomez 表示：“凭借 NVIDIA 的全新高性能 H100 推理平台，我们可以使用先进的生成式模型为客户提供更加优质、高效的服务，推动对话式 AI、多语言企业搜索、信息提取等各种 NLP 应用的发展。”

供应情况

NVIDIA L4 GPU 私人预览版现已通过谷歌云平台以及 30 多家计算机制造商所组成的全球网络提供。

NVIDIA L40 GPU 现已通过全球领先的系统提供商提供，并且合作伙伴平台的数量将在今年持续增加。

Grace Hopper 超级芯片已开始样品供货，预计下半年将全面投产。H100 NVL GPU 也将于下半年面市。

NVIDIA AI Enterprise 现在通过各大云市场以及数十家系统提供商和合作伙伴提供。NVIDIA AI Enterprise 为客户提供 NVIDIA 企业级支持、定期安全审查以及 NVIDIA Triton Inference Server™、TensorRT™ 和 50 多个预训练模型与框架的 API 稳定性。

NVIDIA LaunchPad 上免费提供的动手实验室可以试用用于生成式 AI 的 NVIDIA 推理平台。样品实验室的内容包括训练和部署一个客服聊天机器人、部署一个端到端 AI 工作负载、在 H100 上调整和部署一个语言模型以及使用 NVIDIA Triton 部署一个欺诈检测模型。