大语言模型的一切都很庞大——巨型模型是在数千颗 NVIDIA GPU 和海量的数据集上所训练而成。
不过这可能会给想要使用生成式 AI 的企业带来很多巨大的挑战。NVIDIA NeMo (一个用于构建、自定义和运行 LLM 的框架 )能够帮助企业克服上述挑战。
亚马逊云科技(AWS)有一支由资深科学家和开发者组成的团队,致力于为 Amazon Bedrock(一项用于基础模型的生成式 AI 服务)创建 Amazon Titan 基础模型。该团队在过去几个月中一直在使用 NVIDIA NeMo。
亚马逊云科技高级应用科学家 Leonard Lausen 表示:“我们使用 NeMo 的一大原因是它具有可扩展性,其优化功能使我们能够以较高的 GPU 利用率运行,同时能够扩展到更大的集群,进而能够更快地训练出模型,并向客户交付。”
实现真正的大规模训练
NeMo 的并行技术可实现高效的大规模 LLM 训练。当与亚马逊云科技的 Elastic Fabric Adapter(EFA)配合使用时,团队可以将 LLM 扩展到多颗 GPU 上,从而加快训练速度。
EFA 为亚马逊云科技客户提供了一个 UltraCluster 联网基础设施,可直接连接 1 万多颗 GPU,并使用 NVIDIA GPUDirect 绕过操作系统和 CPU。
这一结合使亚马逊云科技的科学家们能够提供出色的模型质量,这是只依靠其他数据并行方法无法大规模实现的。
通用框架
Lausen 表示:“NeMo 的灵活性支持亚马逊云科技根据新的 Titan 模型、数据集和基础设施的具体情况来定制训练软件。
亚马逊云科技的创新成果包括从 Amazon Simple Storage Service(Amazon S3)到 GPU 集群的高效流式传输。Lausen 表示:“由于 NeMo 本身就是基于标准化 LLM 训练管线组件的常用程序库(如 PyTorch Lightning)所构建的,因此整合这些改进很容易。”
亚马逊云科技和 NVIDIA 的共同目标是将双方的合作经验融入到 NVIDIA NeMo 等产品和 Amazon Titan 等服务中,最终造福客户。