NVIDIA 于今日发布对其所有平台的优化措施,此举将加快最新一代大语言模型(LLM)Meta Llama 3 的运行速度。
在与 NVIDIA 加速计算相结合后,该开源模型能够使开发者、研究者和企业在各种应用中负责任地进行创新。
在 NVIDIA AI 上进行训练
Meta 工程师在搭载 24,576 个 NVIDIA H100 Tensor Core GPU 的计算机集群上对 Llama 3 进行了训练,这些 GPU 通过 RoCE 和 NVIDIA Quantum-2 InfiniBand 网络相连。
为进一步推动生成式 AI 的发展,Meta 最近介绍了将其基础设施扩展到 35 万个 H100 GPU 的计划。
将 Llama 3 投入使用
通过 NVIDIA GPU 加速的各版本 Llama 3 目前可用于云、数据中心、边缘和 PC。
开发者可通过浏览器在 ai.nvidia.com 上试用 Llama 3。该模型被打包成一项带有标准应用编程接口的 NVIDIA NIM 微服务,可以部署在任何位置。
企业可使用 NVIDIA NeMo 和自己的数据对 Llama 3 进行微调。NeMo 是一个 LLM 开源框架,通过安全、受支持的 NVIDIA AI Enterprise 平台提供。自定义模型可使用 NVIDIA TensorRT-LLM 进行推理性能优化,并通过 NVIDIA Triton 推理服务器进行部署。
在设备和 PC 上运行 Llama 3
Llama 3 还可在用于机器人和边缘计算设备的 NVIDIA Jetson Orin 上运行,创建类似 Jetson AI Lab 中的交互式代理。
此外,用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 也能加快 Llama 3 的推理速度。这些系统将开发者的目标范围扩大到全球超过 1 亿台由 NVIDIA 提供加速的系统。
利用 Llama 3 获得最佳性能
为聊天机器人部署 LLM 的最佳实践包括实现低延迟、快速读取和最佳 GPU 利用率之间的平衡,并以此来降低成本。
这种服务需要以用户阅读速度的两倍(约为每秒 10 个 token)提供 token(大致相当于字词)。
如果在使用 700 亿参数级 Llama 3 进行的初步测试中应用这些指标,那么单个 NVIDIA H200 Tensor Core GPU 每秒可生成约 3,000 个 token,足以同时为约 300 名用户提供服务。
这意味着一台搭载 8 颗 H200 GPU 的 NVIDIA HGX 服务器每秒可提供 24,000 个 token,相当于同时支持 2,400 多名用户,进一步降低了成本。
在边缘设备方面,80 亿参数版本的 Llama 3 在 Jetson AGX Orin 上每秒可生成多达 40 个 token,在 Jetson Orin Nano 上每秒可生成多达 15 个 token。
推进社区模型的发展
作为一个积极的开源贡献者,NVIDIA 致力于优化社区软件,帮助用户应对最严峻的挑战。开源模型还能提高 AI 的透明度,让广大用户享受到 AI 安全性和弹性方面的工作成果。
进一步了解 NVIDIA AI 推理平台(包括 NIM、TensorRT-LLM 和 Triton)如何利用最先进的技术(如低秩自适应)加速最新的 LLM。