借助 NVIDIA NIM 微服务和 AI Blueprint 开启本地 AI 新时代

去年，生成式 AI 改变了人们的生活、工作和娱乐方式，从写作到内容创作，再到游戏、学习和生产力，方方面面获得提升。PC 爱好者和开发者正在引领这项创新性技术的前沿发展。

无数次影响整个行业的技术突破诞生于同一个地方——车库。本周，RTX AI Garage 系列栏目闪亮登场，将为希望了解更多关于 NVIDIA NIM 微服务和 AI Blueprint 的开发者和爱好者带来定期内容，以及如何在 AI PC 上构建 AI 智能体、创意工作流程、数字人、生产力应用等。欢迎加入 RTX AI Garage。

首期栏目重点介绍了于本周早些时候在 CES 大会上发布的公告，包括面向 NVIDIA RTX AI PC 推出的新 AI 模型，该模型可将数字人、内容创作、生产力和开发推向一个新高度。

这些模型以 NVIDIA NIM 微服务的形式，由新的 GeForce RTX 50 系列 GPU 驱动。基于 NVIDIA Blackwell 架构，RTX 50 系列 GPU 可执行高达每秒 3,352 万亿次 AI 运算，提供 32GB VRAM 并支持 FP4 计算，令 AI 推理性能翻倍，让生成式 AI 以更小的显存占用本地运行。

NVIDIA 还推出 NVIDIA AI Blueprint —预先配置的开箱即用工作流，其基于 NIM 微服务，可适用于数字人、内容创作等应用。

NIM 微服务和 AI Blueprint 助力爱好者和开发者构建、迭代，并提供前所未有的 AI PC 体验。并借此为 PC 用户提供新一代令人惊艳的实用 AI 能力。

通过 NVIDIA NIM 快速使用 AI

将前沿 AI 技术引入 PC 面临两大关键挑战。首先，AI 研究进度惊人，每天都有新模型涌现在 Hugging Face 等平台上，仅 Hugging Face 现就拥有超过 100 万个模型。因此，新成果很快会被淘汰。

其次，为 PC 适配这些模型是一个复杂费力的过程。将模型针对 PC 硬件进行优化，与 AI 软件集成，并进行应用集成需要大量工程化工作。

NVIDIA NIM 通过提供面向 PC 优化的预封装前沿 AI 模型来帮助应对这些挑战。涵盖不同领域的 NIM 微服务可一键安装，具有易于集成的应用程序编程接口 (API)，并利用 NVIDIA AI 软件和 RTX GPU 加速性能。

在 CES 大会上，NVIDIA 宣布推出面向 RTX AI PC 的 NIM 微服务工作流，支持各种使用场景，包括大语言模型 (LLM)、视觉语言模型、图像生成、语音、检索增强生成 (RAG)、PDF 提取和计算机视觉。

新 Llama Nemotron 开源模型系列为各种代理式 AI 任务提供高精度基础能力。Llama Nemotron Nano 模型将面向 RTX AI PC 和工作站以 NIM 微服务形态发布，在指令遵循、函数调用、聊天、编码和数学等代理式 AI 任务方面表现出众。

不久，开发者将能快速下载并在安装了适用于 Linux 的 Windows 子系统 (WSL) 的 Windows 11 PC 上运行这些微服务。

为了向爱好者和开发者展示如何使用 NIM 构建 AI 智能体和助手，NVIDIA 推出了 Project R2X 应用预览，这是一个具有视觉能力的 PC 虚拟形象，让信息触手可及，协助用户使用桌面应用、进行视频会议、阅读和总结文档等。

借助 NIM 微服务，AI 爱好者可跳过繁琐的模型管理、优化和后端集成，而专注于利用顶尖 AI 模型进行创作和创新。

API 是什么？

API 是一个应用与软件库通信的方式。API 定义了应用可向库发送的一组“调用”指令，以及应用将获得的返回数据。传统 AI API 需要大量的设置和配置，这增大了 AI 使用难度，为创新设置障碍。

NIM 微服务提供了易于使用、直观的 API，应用只需向其发送请求即可获得响应。此外，NIM 微服务面相不同模型类型的输入和输出方式进行设计。比如，LLM 以文本输入并输出文本，图像生成器由文本生成图像，语音识别器将语音识别为文本。

NIM 微服务的设计旨在与领先的 AI 开发和智能体框架无缝集成，如 VSCode AI 工具包、 AnythingLLM、ComfyUI、Flowise AI、LangChain、Langflow 和 LM Studio。开发者可轻松从 NVIDIA 官网下载并部署微服务。

通过将这些 API 引入 RTX，NVIDIA NIM 将加速 PC 端的 AI 创新。

爱好者还可以通过即将发布的 NVIDIA ChatRTX 技术演示体验一系列 NIM 微服务。

为创新打造的 Blueprint

通过采用最前沿的模型，预先封装并针对 PC 进行优化，开发者和粉丝可以快速创建 AI 的项目。更进一步，他们可以结合多种 AI 模型和其他功能模块来构建复杂的应用，如数字人、播客生成器和应用助手。

基于 NIM 微服务，NVIDIA AI Blueprint 可提供复杂 AI 工作流的参考实现。可帮助开发者将多个组件，包括库、软件开发工具包 (SDK) 和 AI 模型，整合到单一应用中。

AI Blueprint 包含了开发者构建、运行、定制和扩展参考工作流所需的一切，其中包括参考应用和源代码、示例数据以及用于定制和编排不同组件的文档。

在 CES 大会上，NVIDIA 宣布推出两个适配 RTX 的 AI Blueprint：一个是 PDF 转播客，让用户基于任意 PDF 生成播客，另一个是由 3D 引导的生成式 AI，该技术基于 FLUX.1 [dev]，以 NIM 微服务形式提供，让艺术家使用文本生成图像提供更好的控制能力。

借助 AI Blueprint，开发者可以在 RTX PC 和工作站上快速将顶尖 AI 工作流由实验转向开发。

为生成式 AI 创建

全新 GeForce RTX 50 系列 GPU 专为应对复杂的生成式 AI 挑战而打造，具有支持 FP4 的第五代 Tensor Core、更快的 GDDR7 显存和 AI 管理处理器，可在 AI 和创意工作流之间实现高效的多任务处理。

GeForce RTX 50 系列新增对 FP4 的支持，为 PC 端带来更佳性能和更多模型。FP4 是一种更低精度的量化方法，类似于文件压缩，可以减小模型大小。与大多数模型默认采用的 FP16 方法相比，FP4 的显存占用不到一半，并且 50 系列 GPU 提供的性能是上一代的 2 倍以上。利用 NVIDIA TensorRT Model Optimizer 提供的先进量化方法，可以在几乎没有任何质量损失的情况下实现这一点。

例如，Black Forest Labs 的 FLUX.1 [dev] 模型在 FP16 下需要超过 23 GB 的显存，这意味着它只能由 GeForce RTX 4090 和专业 GPU 提供支持。在 FP4 下，FLUX.1 [dev] 仅需要不到 10 GB 的显存，因此可以在更多 GeForce RTX GPU 上本地运行。

在 GeForce RTX 4090 D 上采用 FP16 时，FLUX.1 [dev] 模型可以在 18 秒内生成图像，步数为 30 步。而在 GeForce RTX 5090 D 上采用 FP4，只需5秒多一点的时间即可生成图像。

开始使用 PC 端新 AI API

NVIDIA NIM 微服务和 AI Blueprint 将从下月起开始提供，首发支持的硬件包含 GeForce RTX
50 系列、GeForce RTX 4090 和 4080 以及 NVIDIA RTX 6000 和 5000 GPU 。未来还会陆续提供对其他 GPU 的支持。

宏碁、华硕、戴尔、惠普、联想、微星、雷蛇将推出支持 NIM 的 RTX AI PC。

GeForce RTX 50 系列 GPU 和笔记本电脑带来全新玩法和创新性 AI 体验，助力创作者更快呈现创意。回放 NVIDIA 创始人兼首席执行官黄仁勋发表的主题演讲，了解 NVIDIA 在 CES 大会上发布的 AI 内容。

请参阅有关软件产品信息的通知。