借助 NVIDIA GeForce RTX 50 系列 AI PC 加速 DeepSeek 推理模型

作者 Annamalai Chockalingam

最近发布的 DeepSeek-R1 系列模型已在 AI 社区掀起一阵风潮,爱好者和开发者可以在 PC 上本地运行具有问题解决、数学和代码能力的先进推解理模型,同时保障了隐私。

由于具有至高每秒执行 2375 万亿次运算的 AI 算力,相比于 PC 市场上的任何产品,NVIDIA GeForce RTX 50 系列 GPU 能够更快运行 DeepSeek 系列蒸馏模型。

新型推理模型

推理模型是一类全新的大语言模型 (LLM),需要花费更多时间来“思考”和“反思”以解决复杂问题,同时描述完成任务所需的步骤。

其基本原则是,任何问题都可以通过深入思考、推理并花费时间来解决,就像人类解决问题的方式一样。通过在某个问题上花费更多时间 — 从而进行计算 — LLM 能够生成更好的结果。这种现象称为 Test-time scaling,即在推理期间,模型会动态分配计算资源,以针对问题进行因果推理。

推理模型可通过深入了解用户的需求、代表用户采取行动,并允许他们对模型的思考过程提供反馈,来增强用户的 PC 体验,从而解锁智能体工作流来完成复杂的多步骤任务,例如分析市场调研、解决复杂的数学问题、调试代码等。

DeepSeek 的不同之处

DeepSeek-R1 系列蒸馏模型基于一个包含 6710 亿个参数的混合专家模型 (MoE)。MoE 模型包含多个用于解决复杂问题的小型专家模型。DeepSeek 模型会进一步分工,并将子任务分配给更小的专家群体。

DeepSeek 采用蒸馏技术,基于包含 6710 亿个参数的大型 DeepSeek 模型构建了一系列 6 个较小的学生模型 — 参数数量从 15 亿到 700 亿不等。包含 6710 亿个参数的大型 DeepSeek 模型的推理能力被“传授”给较小的 Llama 和 Qwen 学生模型,从而生成在本地 RTX AI PC 上运行、功能强大的小型高性能推理模型。

RTX 上的峰值性能

对这类新型因果推理模型来说,推理速度至关重要。GeForce RTX 50 系列 GPU 搭载了专用的第五代 Tensor Core,其基于与 NVIDIA Blackwell GPU 相同的架构,该架构为数据中心内的全球领先 AI 创新提供了强大动力。RTX 可为 DeepSeek 提供全面加速,从而在 PC 上实现出色推理性能。

Deepseek-R1 系列蒸馏模型在 PC 上的不同 GPU 之间的吞吐量性能。

借助 RTX 体验 DeepSeek

NVIDIA 的 RTX AI 平台提供了丰富的 AI 工具、软件开发套件和模型,允许用户在全球超过 1 亿台 NVIDIA RTX AI PC (包括由 GeForce RTX 50 系列 GPU 提供支持的 PC) 上使用 DeepSeek-R1 的功能。

高性能 RTX GPU 可确保 AI 功能始终可用 (即使没有互联网连接),实现低延迟并增强隐私保护,因为用户不必上传敏感材料或向在线服务披露其问答数据。

你可以通过庞大的软件生态系统,包括 Llama.cppOllamaLM StudioAnythingLLMJan.AI、GPT4All 和 OpenWebUI 体验 DeepSeek-R1 和 RTX AI PC 的强大功能,从而进行推理。另外,你还可以使用 Unsloth 借助自定义数据微调这些模型。