借助小语言模型 (SLM) 降低延迟：NVIDIA 首款设备端小语言模型如何让数字人栩栩如生

编者注：本文属于《解码 AI》系列栏目，该系列的目的是让技术更加简单易懂，从而解密 AI，同时向 RTX PC 和工作站用户展示全新硬件、软件、工具和加速特性。

在本周的 Gamescom 2024，NVIDIA 宣布 NVIDIA ACE 技术现在推出首款设备端小语言模型 (SLM)，由 RTX AI 提供本地支持。NVIDIA ACE 是一套利用生成式 AI 驱动的让数字人栩栩如生的技术。

这款小语言模型 Nemotron-4 4B Instruct，可提供更出色的角色扮演、检索增强生成 (RAG) 和功能调用能力，使游戏角色能更准确地理解玩家指令，回应玩家并做出更准确的相关操作。

此模型可作为 NVIDIA NIM 微服务供游戏开发者在云端和设备端进行部署。模型为低显存使用进行优化，可提供更快的响应速度，为开发者利用超过 1 亿台 GeForce RTX 驱动的 PC、笔记本电脑、RTX 工作站提供途径。

小语言模型 (SLM) 的优势

AI 模型的准确性和性能取决于用于训练的数据集的规模和质量。大语言模型使用大量数据进行训练，但通常是通用型的，包含的信息对于大多数用途来说都是多余的。

相反，小语言模型则专注于特定用例。因此，即使训练数据较少，这些模型也能提供更快、更准确的响应，这也是与数字人对话自如的关键要素。

Nemotron-4 4B 最初是从 Nemotron-4 15B 大语言模型中精炼出来的。这个过程需要小模型 (类似“学生”)来模拟大模型 (类似“老师”) 的输出。在此过程中，学生模型的非关键输出会经过精简或删除，以减少模型的参数量。然后，SLM 会被量化，这会降低模型权重的精度。

与较大的 Nemotron-4 LLM 相比，Nemotron-4 4B 的参数更少，精度更低，显存占用率更低，并且生成第一个Token的时间 (即响应开始的速度) 更快，同时基于模型精炼仍然能够保持高准确性。其较小的显存占用也意味着集成 NIM 微服务的游戏和应用可以在 GeForce RTX AI PC 和笔记本电脑以及 NVIDIA RTX AI 工作站的本地运行。

这种经优化的全新小语言模型 (SLM) 还专门设计了指令微调功能，这是一种根据指令提示词对模型进行微调，使其更准确地执行特定任务的技术。这项技术在“解限机 (Mecha BREAK)”游戏 Demo 中展示：玩家可以与机械师 NPC 交谈，指示其选择机甲或定制机甲涂装。

ACE 持续升级

ACE NIM 微服务使开发者可以通过云端或 RTX AI PC 和工作站部署先进的生成式 AI 模型，从而将 AI 引入他们的游戏和应用。通过 ACE NIM 微服务，非玩家角色 (NPC) 可以在游戏中与玩家进行实时动态互动和对话。

ACE 由语音转文本、语言、文本转语音和面部动画的关键 AI 模型组成。它同样采用模块化构建，可让开发者为其特定流程中每个元素选择所需的 NIM 微服务。

NVIDIA Riva 自动语音识别 (ASR) 功能可处理用户的语音输入并利用 AI 实时提供非常准确的转录文本。该技术可利用 GPU 加速的多语种语音和翻译微服务，构建完全可定制的对话式 AI 工作流。其他支持 ASR 功能的还包括 Whisper 模型，这是一个开源神经网络，在英语语音识别拥有接近真人水平的鲁棒性和准确性。

翻译成数字化的文本后，转录内容就会进入 LLM (例如 Gemma、Llama 3 或如今推出的 NVIDIA Nemotron-4 4B)，开始对用户原始语音输入生成响应。

接下来，Riva 的另一项技术“文本转语音”会生成音频响应。此外，ElevenLabs 专有 AI 语音和声音技术，已作为 ACE 的一部分在“解限机 (Mecha BREAK)”中演示。

最后，NVIDIA Audio2Face (A2F) 可生成面部表情，并与多种语言的对话同步。通过微服务，数字虚拟化身可以显示出逼真的动态情绪，这类情绪可以实时串流传输，也能在后期处理过程中烘焙。

AI 模型会自动生成面部、眼睛、嘴巴、舌头和头部动作的动画，并使这些动画与所选情绪范围和强度水平相匹配。A2F 还可以直接根据音频片段自动推断情绪。

最后，完整的角色或数字人会在渲染器 (如虚幻引擎或 NVIDIA Omniverse 平台) 中制作成动画。

NIM 提供迅捷 AI 体验

除了模块化支持 NVIDIA 驱动的 AI 模型以及第三方AI 模型提外，ACE 还能让开发者在云端或 RTX AI PC 和工作站上本地运行每个模型的推理。

NVIDIA AI Inference Manager 软件开发套件允许根据经验、工作量和成本等各种需求进行混合推理。它通过为 PC 预先配置必要的 AI 模型、引擎和依赖项，为 PC 应用开发者简化了 AI 模型部署和集成。然后，应用和游戏可以将 PC 或工作站的推理和云端推理无缝结合。

ACE NIM 微服务可在 RTX AI PC 和工作站上本地运行，也可以在云端运行。目前本地运行的微服务包括 Covert Protocol 技术 Demo 中的 Audio2Face，以及 “解限机 (Mecha BREAK)”中的全新 Nemotron-4 4B Instruct 和 Whisper ASR。