NVIDIA 发布适用于训练大语言模型的开源合成数据生成流水线

Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式 AI 训练的数据集。
作者 Ankit Patel

NVIDIA 于近日发布 Nemotron-4 340B。开发者可以使用这组开源模型生成用于训练大语言模型(LLM)的合成数据,训练出的 LLM 可用于医疗、金融、制造、零售等各个行业的商业应用。

高质量的训练数据对于自定义 LLM 的性能、准确性和回答质量来说至关重要,但强大的数据集通常非常昂贵且难以获得。

通过独树一帜的开源模型许可证,Nemotron-4 340B 为开发者提供了一种免费、可扩展的合成数据生成方法,帮助他们构建强大的 LLM。

Nemotron-4 340B 系列包含基础模型、指导模型和奖励模型,由它们组成的流水线能够生成用于训练和完善 LLM 的合成数据。为了能够与 NVIDIA NeMo 协同工作,这些模型专门进行了优化。NVIDIA NeMo 是一个适用于端到端模型训练的开源框架,涵盖数据管护、定制、评估等步骤。该系列模型还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。

Nemotron-4 340B 现已可以从 NVIDIA NGC 目录和 Hugging Face 下载。开发者很快就能在 ai.nvidia.com 上访问这些模型,它们将被打包成带有标准应用编程接口的 NVIDIA NIM 微服务,可在任意位置进行部署。

将 Nemotron 用于生成合成数据

在难以获得大型多样化标记数据集的情况下,这些 LLM 可以帮助开发者生成合成训练数据。

Nemotron-4 340B Instruct 模型可生成各种模拟现实世界数据特征的合成数据,通过提高数据质量,增强自定义 LLM 在各个领域的性能和稳健性。

随后,为了提高 AI 生成数据的质量,开发者可以使用 Nemotron-4 340B Reward 模型来筛选高质量的回答。Nemotron-4 340B Reward 模型根据五个方面对回答进行评分,这五个方面分别是:有用性、正确性、连贯性、复杂性和冗长性。该模型目前在 AI2 专为评估奖励模型能力、安全性和缺陷而创建的 “Hugging Face RewardBench 排行榜” 上排名第一。

在这个合成数据生成流水线中,(1)Nemotron-4 340B Instruct 模型首先生成基于文本的合成输出。然后来到评估模型,(2)Nemotron-4 340B Reward 模型对生成的文本进行评估,并提供指导反复改进的反馈,确保合成数据准确、相关且符合特定要求。

研究者还可以使用自己的专有数据,并结合随附的 HelpSteer2 数据集自定义 Nemotron-4 340B Base 模型,创造出自己的指导或奖励模型。

使用 NeMo 进行微调并使用 TensorRT-LLM 优化推理

开发者可以使用开源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 提高其指导和奖励模型的效率,以便生成合成数据并对回答进行评分。

所有 Nemotron-4 340B 模型均使用 TensorRT-LLM 优化,能够利用张量并行性,这是一种模型并行技术,通过将单个权重矩阵分割到多个 GPU 和服务器上,实现大规模的高效推理。

Nemotron-4 340B Base在 9 万亿个 token 上训练而成。可使用 NeMo 框架对它进行自定义,使其适应特定的用例或领域。这一微调过程得益于大量的预训练数据,使模型能够针对特定的下游任务提供更加准确的输出。

NeMo 框架提供多种自定义方法,包括有监督的微调和各种参数高效微调方法,比如低秩自适应(LoRA)。

为了提升模型质量,开发者可以使用 NeMo Aligner 以及由 Nemotron-4 340B Reward 模型注释的数据集对齐模型。校准是 LLM 训练过程中的一个关键步骤。在该步骤中,模型的行为通过人类反馈强化学习(RLHF)等算法进行微调,以保证其输出结果安全、准确、符合上下文并与其预期目标一致。

寻求企业级支持和生产环境安全性的企业也可以通过 NVIDIA AI Enterprise 云原生软件平台访问 NeMo 和 TensorRT-LLM。该平台为生成式 AI 基础模型提供更加快速和高效的运行时。

评估模型安全性并开始使用

Nemotron-4 340B Instruct 模型经过包括对抗测试在内的大量安全性评估,其各项风险指标均表现良好。但用户仍应对该模型的输出结果进行仔细评估,确保合成生成的数据适合且安全而准确地用于自己的用例。

有关模型安全性和安全评估的更多信息,请阅读模型卡。

通过 NVIDIA NGC 和 Hugging Face 下载 Nemotron-4 340B 系列模型。更多详情,请阅读有关该系列模型数据集的研究论文。

参见有关软件产品信息的公告