NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU 以及亚马逊云科技的 EFA 来训练其最大的新一代大语言模型(LLM)。
作者 Nirmalya De

大语言模型的一切都很庞大——巨型模型是在数千颗 NVIDIA GPU 和海量的数据集上所训练而成。

不过这可能会给想要使用生成式 AI 的企业带来很多巨大的挑战。NVIDIA NeMo (一个用于构建、自定义和运行 LLM 的框架 )能够帮助企业克服上述挑战。

亚马逊云科技(AWS)有一支由资深科学家和开发者组成的团队,致力于为 Amazon Bedrock(一项用于基础模型的生成式 AI 服务)创建 Amazon Titan 基础模型。该团队在过去几个月中一直在使用 NVIDIA NeMo。

亚马逊云科技高级应用科学家 Leonard Lausen 表示:“我们使用 NeMo 的一大原因是它具有可扩展性,其优化功能使我们能够以较高的 GPU 利用率运行,同时能够扩展到更大的集群,进而能够更快地训练出模型,并向客户交付。”

实现真正的大规模训练

NeMo 的并行技术可实现高效的大规模 LLM 训练。当与亚马逊云科技的 Elastic Fabric Adapter(EFA)配合使用时,团队可以将 LLM 扩展到多颗 GPU 上,从而加快训练速度。

EFA 为亚马逊云科技客户提供了一个 UltraCluster 联网基础设施,可直接连接 1 万多颗 GPU,并使用 NVIDIA GPUDirect 绕过操作系统和 CPU。

这一结合使亚马逊云科技的科学家们能够提供出色的模型质量,这是只依靠其他数据并行方法无法大规模实现的。

通用框架

Lausen 表示:“NeMo 的灵活性支持亚马逊云科技根据新的 Titan 模型、数据集和基础设施的具体情况来定制训练软件。

亚马逊云科技的创新成果包括从 Amazon Simple Storage Service(Amazon S3)到 GPU 集群的高效流式传输。Lausen 表示:“由于 NeMo 本身就是基于标准化 LLM 训练管线组件的常用程序库(如 PyTorch Lightning)所构建的,因此整合这些改进很容易。”

亚马逊云科技和 NVIDIA 的共同目标是将双方的合作经验融入到 NVIDIA NeMo 等产品和 Amazon Titan 等服务中,最终造福客户。