微软携手 NVIDIA 助推 RTX AI PC 上的 AI 开发

生成式 AI 赋能的笔记本电脑和 PC 正在推动游戏、内容创作、生产力和程序开发更进一步。目前，超过 600 款 Windows 应用和游戏已在全球超过 1 亿台 GeForce RTX AI PC 上本地运行 AI，提供快速、可靠的低延迟体验。

在 Microsoft Ignite 大会上，NVIDIA 与微软联合推出多个工具，帮助 Windows 开发者在 RTX AI PC 上快速构建和优化 AI 赋能的应用，使本地 AI 更加便捷。这些新工具使应用和游戏开发者能够利用强大的 RTX GPU 加速 AI 智能体、应用助手和数字人等应用的复杂 AI 工作流。

RTX AI PC 通过多模态小语言模型为数字人赋能

我们来认识一下 James，一个熟知 NVIDIA 及其产品的交互式数字人。James 将 NVIDIA NIM 微服务、NVIDIA ACE 和 ElevenLabs 数字人技术相结合，可提供自然的沉浸式交互体验。

NVIDIA ACE 是一套数字人技术，可以让智能体、助手和虚拟形象栩栩如生。为了深度理解信息，以更强的情境感知能力做出响应，数字人必须能够像人一样在视觉上感知世界。

提升数字人交互的真实感，需要能够感知和理解周围环境更细微差别的技术。为此，NVIDIA 开发了多模态小语言模型，可同时处理文本和图像信息，在角色扮演方面表现出色，并针对响应速度进行了优化。

NVIDIA 即将推出的 Nemovision-4B-Instruct 模型利用最新的 NVIDIA VILA 和 NVIDIA NeMo 框架进行蒸馏、剪枝和量化，使其体积小到足以在 RTX GPU 上以开发者所需的精度运行。该模型使数字人能够理解现实世界和屏幕上的视觉图像，以做出相关的响应。多模态作为智能体工作流的基础，让我们得以窥见未来，届时数字人只需极少的用户辅助，即可进行推理并采取行动。

NVIDIA 还推出了 Mistral NeMo Minitron 128k Instruct 系列模型，这是一套专为优化的高效数字人交互而设计的长上下文小语言模型。这一系列模型提供 8B、4B 和 2B 参数版本的灵活选项，以平衡在 RTX AI PC 上运行的速度、显存用量和模型精度。模型单次推理可以处理大量数据，无需进行数据分割和重组。这些模型提供 GGUF 格式，为低功耗设备的效率进行优化，并与多种编程语言兼容。

利用面向 Windows 的 NVIDIA TensorRT Model Optimizer 加速生成式 AI

将模型引入 PC 环境时，开发者面临着有限的显存和计算资源，这为本地运行 AI 提出了挑战。开发者希望模型可以被更多人使用，同时精度损失最小。

今天，NVIDIA 公布了 NVIDIA TensorRT Model Optimizer (ModelOpt) 的更新，为 Windows 开发者提供了针对 ONNX Runtime 部署的模型优化方案。借助最新更新，TensorRT ModelOpt 可将模型优化为 ONNX 格式，以便使用 CUDA、TensorRT 和 DirectML 等 GPU 运行后端在 ONNX 运行时环境中部署模型。

最新更新使模型可优化为 ONNX 检查点，以便通过 CUDA、TensorRT 和 DirectML 等执行提供商在 ONNX 运行时环境中部署模型，从而提高整个 PC 生态系统的精度和吞吐量。

在部署时，与 FP16 模型相比，这些模型可将显存占用减少 2.6 倍。这可提高吞吐量，同时精度损失降到最低，使其能够在更多的 PC 上运行。

详细了解从 Windows RTX AI PC 到 NVIDIA Blackwell 驱动的 Azure 服务器等 Microsoft 系统开发者如何改变用户日常与 AI 交互的方式。