NVIDIA 全面加快 Meta Llama 3 的推理速度

NVIDIA 于今日发布对其所有平台的优化措施，此举将加快最新一代大语言模型（LLM）Meta Llama 3 的运行速度。

在与 NVIDIA 加速计算相结合后，该开源模型能够使开发者、研究者和企业在各种应用中负责任地进行创新。

在 NVIDIA AI 上进行训练

Meta 工程师在搭载 24,576 个 NVIDIA H100 Tensor Core GPU 的计算机集群上对 Llama 3 进行了训练，这些 GPU 通过 RoCE 和 NVIDIA Quantum-2 InfiniBand 网络相连。

为进一步推动生成式 AI 的发展，Meta 最近介绍了将其基础设施扩展到 35 万个 H100 GPU 的计划。

通过 NVIDIA GPU 加速的各版本 Llama 3 目前可用于云、数据中心、边缘和 PC。

开发者可通过浏览器在 ai.nvidia.com 上试用 Llama 3。该模型被打包成一项带有标准应用编程接口的 NVIDIA NIM 微服务，可以部署在任何位置。

企业可使用 NVIDIA NeMo 和自己的数据对 Llama 3 进行微调。NeMo 是一个 LLM 开源框架，通过安全、受支持的 NVIDIA AI Enterprise 平台提供。自定义模型可使用 NVIDIA TensorRT-LLM 进行推理性能优化，并通过 NVIDIA Triton 推理服务器进行部署。

Llama 3 还可在用于机器人和边缘计算设备的 NVIDIA Jetson Orin 上运行，创建类似 Jetson AI Lab 中的交互式代理。

此外，用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 也能加快 Llama 3 的推理速度。这些系统将开发者的目标范围扩大到全球超过 1 亿台由 NVIDIA 提供加速的系统。

为聊天机器人部署 LLM 的最佳实践包括实现低延迟、快速读取和最佳 GPU 利用率之间的平衡，并以此来降低成本。

这种服务需要以用户阅读速度的两倍（约为每秒 10 个 token）提供 token（大致相当于字词）。

如果在使用 700 亿参数级 Llama 3 进行的初步测试中应用这些指标，那么单个 NVIDIA H200 Tensor Core GPU 每秒可生成约 3,000 个 token，足以同时为约 300 名用户提供服务。

这意味着一台搭载 8 颗 H200 GPU 的 NVIDIA HGX 服务器每秒可提供 24,000 个 token，相当于同时支持 2,400 多名用户，进一步降低了成本。

在边缘设备方面，80 亿参数版本的 Llama 3 在 Jetson AGX Orin 上每秒可生成多达 40 个 token，在 Jetson Orin Nano 上每秒可生成多达 15 个 token。

作为一个积极的开源贡献者，NVIDIA 致力于优化社区软件，帮助用户应对最严峻的挑战。开源模型还能提高 AI 的透明度，让广大用户享受到 AI 安全性和弹性方面的工作成果。

进一步了解 NVIDIA AI 推理平台（包括 NIM、TensorRT-LLM 和 Triton）如何利用最先进的技术（如低秩自适应）加速最新的 LLM。