如何通过扩展定律推动更智能、更强大的 AI

扩展定律描述了 AI 系统性能如何随训练数据、模型参数或计算资源规模的增加而提高。
作者 Kari Briski

如同许多众所周知的自然经验法则 (例如,凡事有起必有落,每一个作用力都有一个大小相等、方向相反的反作用力) 一样,在 AI 领域,大家一直认为,计算、训练数据和参数越多,AI 模型就越好。

然而 AI 发展至今,已经需要三条不同定律来描述不同计算资源配置如何影响模型性能。这三条 AI 扩展定律分别是预训练扩展、后训练扩展和测试时扩展 (也称为长思考),它们共同反映了这一领域随着技术的发展而演变的过程,而这些技术能够在各种日益复杂的 AI 用例中使用更多的计算资源。

特别是最近兴起的测试时扩展技术 (在推理阶段应用更多计算资源以提高准确性),使 AI 推理模型成为了可能。这种新的大语言模型 (LLM) 能通过执行多次推理来解决复杂问题,同时描述执行任务所需的步骤。然而,测试时扩展需要大量计算资源来支持 AI 推理,这将进一步推动对加速计算的需求。

什么是预训练扩展?

预训练扩展是最初的 AI 发展定律。该定律表明:通过提升训练数据集规模、模型参数数量,以及增加计算资源,开发者能够实现模型智能水平和准确率的可预测性提升。

数据、模型大小和计算这三个要素相互关联。根据研究论文所述的预训练扩展定律,大模型被输入的数据越多,其整体性能越高。为此,开发者必须扩大计算规模,而这又进一步推动了对强大加速计算资源的需求,以运行这些大规模训练的工作负载。

预训练扩展定律带来了具有突破性能力的大模型,同时也激发了模型架构方面的重大创新,包括十亿和万亿参数级 transformer 模型、混合专家模型和新分布式训练技术的兴起,而这些都对计算资源提出了极高要求。

随着人类不断产生大量的多模态数据,包括文本、图像、音频、视频和传感器信息,这些丰富的数据将被用于训练强大的未来 AI 模型,因此预训练扩展定律适用性还将持续。

A single prompt mapped to an AI model then sorts through numerous AI models, referred to as Mixture of Experts, which requires less compute to answer a question
预训练扩展是 AI 发展的基本原则,它建立了模型、数据集和计算与 AI 收益之间的联系。混合专家(如上图所示)是 AI 训练中的一种常用模型架构。

什么是后训练扩展?

预训练大型基础模型并非易事,它需要大量的投入、专业的技术专家以及数据集。然而,一旦一家公司预训练并发布了一个模型,就进而降低了使用 AI 的门槛,让其他人能够使用他们预训练的模型作为基础,并根据自己的应用进行调整。

这种后训练的过程进一步增加了企业和更广泛开发者社区对加速计算的持续需求。流行的开源模型可以衍生出数百甚至数千个在众多领域中训练过的变体模型。

为各种用例开发这些衍生模型可能需要比预训练原始基础模型多出约 30 倍的计算资源。

后训练技术可以进一步提高模型针对企业所需用例的专业性和相关性。预训练就像是送 AI 模型去学校学习基础技能,而后训练则是教会模型适用于其预期工作的技能。例如,大语言模型在经过后训练后可以处理诸如观点分析或翻译等任务,或者理解医疗或法律等特定领域的术语。

后训练扩展定律认为,可以使用微调、剪枝、量化、蒸馏、强化学习和合成数据增强等技术,进一步提高预训练模型的性能,包括计算效率、准确性或领域专业性。

  • 微调使用额外的训练数据为特定领域和应用定制 AI 模型。可以使用的训练数据包括企业内部数据集,或成对的样本模型输入和输出。
  • 蒸馏需要一对 AI 模型,即一个大型、复杂的教师模型和一个轻量级的学生模型。在最常见的蒸馏技术(称为离线蒸馏)中,学生模型会学习模仿预训练教师模型的输出。
  • 强化学习 (RL) 是一种机器学习技术,它通过奖励模型来训练一个智能体,使其做出与特定用例相符的决策。智能体的目标是在与环境交互的过程中,随着时间推移最大化累积奖励。例如,一个聊天机器人 LLM 可以通过用户的“点赞”反应获得正向强化。这种技术被称为基于人类反馈的强化学习 (RLHF)。另一种更新的技术是基于 AI 反馈的强化学习 (RLAIF)。它使用 AI 模型的反馈来指导学习过程,从而简化后训练的优化工作。
  • Best-of-n 采样会从语言模型中生成多个输出,并根据奖励模型选择其中奖励分数最高的输出。这种方法通常用于在不修改模型参数的情况下提升 AI 的输出质量,是强化学习微调的一种替代方案。
  • 搜索方法会在选择最终输出之前探索一系列潜在的决策路径。这种后训练的技术可以通过迭代的方式逐步改进模型的响应。

为了支持后训练,开发者可以使用合成数据增强或补充他们的微调数据集。使用由 AI 生成的数据去补充现实世界的数据集,可以使模型更善于处理原始训练数据中罕见或缺失的边缘案例。

symbol: A representative symbol of a tensor, used to represent data in AI and deep learning
后训练扩展使用微调、剪枝和蒸馏等技术完善预训练模型,以提高效率和任务相关性。

什么是测试时扩展?

LLM 可以对输入的提示作出快速响应。虽然该过程非常适合回答简单问题,但在面对用户提出的复杂问题时可能就不那么奏效了。而回答复杂问题是代理式 AI 工作负载的一项基本能力,这项工作要求 LLM 在得出答案之前先对问题进行推理。  

这与大多数人类的思维方式类似——当被问到像 2 加 2 这样的问题时,我们可以立即给出答案,不需要涉及加法或整数的基本原理。但如果当场被要求制定一个能让公司利润增长 10% 的商业计划,那么我们就需要对各种选项进行推理,并给出一个多步骤的答案。

测试时扩展也被称为长思考,发生在推理过程中。传统的 AI 模型会根据用户提示快速生成一个一次性的答案,而使用测试时扩展技术的模型则会在推理过程中进行额外的计算,以便在得出最佳答案之前对多个备选答案进行推理。

在为开发者生成复杂、定制化的代码等任务中,这种 AI 推理过程可能需要花费数分钟甚至数小时——与传统 LLM 的单次推理相比,对于复杂的查询,它可能需要超过 100 倍的计算资源,而传统 LLM 在第一次尝试时几乎不可能正确回答复杂问题。

这种测试时计算的能力使 AI 模型能够探索问题的不同解决方案,并将复杂的请求分解为多个步骤。在许多情况下,它们在推理时会向用户展示自己的工作。研究发现,在向 AI 模型提供需要多个推理和规划步骤的开放式提示时,测试时扩展能够提高回答的质量。

测试时计算方法有很多,包括:

  • 思维链提示:将复杂的问题分解为一系列较简单的步骤。
  • 多数表决抽样:针对相同的提示生成多个回答,然后选择出现频率最高的答案作为最终输出。
  • 搜索:探索并评估响应的树状结构中存在的多条路径。

像 Best-of-n 采样这样的后训练方法也可以在推理阶段用于“长思考”,以优化响应,使其更符合人类偏好或其他目标。

Symbols for cloud-based AI models under code and chatbot imagery showing multiple agentic AI workloads
测试时扩展通过进行额外的计算改进 AI 推理,从而增强模型的推理能力,使模型能够有效解决复杂的多步骤问题。

测试时扩展如何实现 AI 推理

测试时计算的兴起使 AI 能够对复杂的开放式用户查询作出有理有据、实用且更加准确的回答。这种能力对于自主代理式 AI物理 AI 应用所期望的详细、多步骤推理任务至关重要,为各个行业的用户提供了能够加快工作速度的超强助手,提高效率和生产力。

在医疗领域,模型可以使用测试时扩展技术分析海量数据,推断疾病的发展情况,并根据药物分子的化学结构预测新疗法可能引发的潜在并发症。它们还可以梳理临床试验数据库,以便推荐符合个人疾病特征的治疗方案,同时分享其对不同研究利弊的推理过程。

在零售和供应链物流领域,“长思考”可以助力解决短期运营挑战和长期战略目标所需的复杂决策。通过推理技术,企业能够同时预测和评估多种场景,从而降低风险并应对可扩展性挑战。这有助于实现更准确的需求预测、优化供应链路线以及做出与组织可持续发展目标一致的采购决策。

全球各地的企业都可以使用该技术起草详细的商业计划,生成复杂的代码来调试软件,或优化送货卡车、仓库机器人和自动驾驶出租车的行驶路线。

AI 推理模型正在迅速发展。过去几周内,OpenAI o1-mini 和 o3-mini、DeepSeek R1 以及谷歌 DeepMind 的 Gemini 2.0 Flash Thinking 相继推出,预计很快还会有更多的新模型推出。

这些模型需要大量的计算资源进行推理以及正确回答复杂问题,这意味着企业需要扩展其加速计算资源来提供支持复杂问题解答、编码和多步骤规划的下一代 AI 推理工具。

进一步了解 NVIDIA AI 在加速推理方面的优势。