NIM 让不可能成为可能：解码用于加速生成式 AI 的微服务

编者注：本文属于《解码 AI》系列栏目，该系列的目的是让技术更加简单易懂，从而解密 AI，同时向 NVIDIA RTX PC 和工作站用户展示全新硬件、软件、工具和加速特性。

在快速发展的人工智能领域中，生成式 AI 正在激发人们的想象力并变革各行各业。使这一切成为可能的是一位默默无闻的幕后英雄：微服务架构。

现代 AI 应用的基础模组

微服务已成为一种强大的架构，从根本上改变了人们设计、构建和部署软件的方式。

微服务架构可将应用分解为一系列可独立部署的松散耦合服务。每个服务都负责一项特定的功能，并通过明确定义的应用编程接口 (API) 与其他服务通信。这种模块化方法与传统的一体化架构形成了鲜明的对比。在传统的一体化架构中，所有功能都会捆绑至单个紧密集成的应用中。

解除各个服务之间的耦合后，团队可以同时处理不同的组件，进而加速开发流程。同时，团队还能针对各个服务单独推出更新，避免对整个应用造成影响。开发者可以专注于构建和改进特定服务，进而提高代码质量并加快解决问题的速度。这种专业化开发让开发者能够成为其特定领域的专家。

服务可以根据需求独立扩展，从而优化资源利用率并提高系统的整体性能。此外，不同的服务可以使用不同的技术，这让开发者能够为各个特定任务选择最合适的工具。

完美搭配：微服务与生成式 AI

微服务架构具有可扩展性、增强的模块化属性和灵活性，因而特别适用于开发生成式 AI 应用。

AI 模型 (尤其是大语言模型) 需要用到大量的计算资源。微服务能够让这些资源密集型组件实现高效扩展，同时避免对整个系统产生影响。

生成式 AI 应用通常涉及多个步骤，例如数据预处理、模型推理和后处理。借助微服务，每个步骤都可以独立开发、优化和扩展。此外，随着 AI 模型和技术的快速发展，微服务架构可使集成新模型及替换现有模型的过程变得更加轻松，同时不会中断整个应用的运行。

NVIDIA NIM：简化生成式 AI 部署

随着人们对 AI 赋能应用的需求不断增长，开发者在有效部署和管理 AI 模型方面面临着挑战。

NVIDIA NIM 推理微服务可将模型作为经优化的容器提供，以便在云端、数据中心、工作站、台式电脑和笔记本电脑中部署这些模型。每个 NIM 容器都包含经过预训练的 AI 模型和所有必要的运行时组件，可让用户轻松地将 AI 功能集成到应用中。

NIM 可简化集成过程，且兼具生产就绪性和灵活性，为希望引入 AI 功能的应用开发者提供了一种具有变革性的开发方法。开发者可以专注于构建应用，而无需担心数据准备、模型训练或自定义会过于复杂，这是因为 NIM 推理微服务针对性能进行了优化，自带运行时优化，还支持行业标准 API。

触手可及的 AI：工作站和 PC 上的 NVIDIA NIM

构建企业级生成式 AI 应用面临着诸多挑战。虽然云托管模型 API 可以帮助开发者着手进行开发，但与数据隐私、安全性、模型响应延迟、准确性、API 成本和扩展相关的问题往往会阻碍应用投入生产环境。

在支持 NIM 的工作站上，开发者可以安全访问各种模型和经过性能优化的推理微服务。

通过消除与云托管 API 相关的延迟、成本和合规性问题并降低模型部署的复杂性，开发者可以专注于应用开发，进而加速生产就绪型生成式 AI 应用的交付，并在数据中心和云端实现流畅的自动扩展及性能优化。

最近宣布可作为 NIM 的 Meta Llama 3 8B 模型正式版可以在 RTX 系统上本地运行，为个人开发者提供先进的语言模型功能，使其无需云资源的支持即可进行本地测试和实验。借助本地运行的 NIM，开发者可以直接在其工作站上创建复杂的检索增强生成 (RAG) 项目。

本地 RAG 是指完全在本地硬件上部署的 RAG 系统，这种 RAG 不依赖基于云的服务或外部 API。

开发者可以在配备一个或多个 NVIDIA RTX 专业旗舰级 GPU 的工作站或 NVIDIA RTX 系统上使用 Llama 3 8B NIM，完全立足于本地硬件构建端到端 RAG 系统。这种设置让开发者能够充分利用 Llama 3 8B 的强大功能，以确保获得高性能和低延迟。

通过在本地运行整个 RAG 工作流，开发者可以始终保持对其数据的完全掌控，以确保隐私和安全。如果开发者正在构建的应用需要做到实时响应，同时还需兼具高准确性 (例如客户支持聊天机器人、个性化内容生成工具和交互式虚拟助手)，那么对于开发者来说，上述方法特别有用。

混合式 RAG 可结合本地和基于云的资源来优化 AI 应用的性能和灵活性。借助 NVIDIA AI Workbench，开发者可以开始使用混合式 RAG Workbench 项目，这是一个示例应用，可提供灵活的资源分配方法，既能用于在本地运行向量数据库和嵌入模型，又能用于在云端或数据中心使用 NIM 执行推理。

开发者可借助这种混合式设置平衡本地和云资源之间的计算负载，以便优化性能和降低成本。例如，向量数据库和嵌入模型可以托管在本地工作站，以确保实现快速的数据检索和处理，而计算强度更大的推理任务则可以分流至基于云的强大 NIM 推理微服务。这种灵活性让开发者能够流畅地扩展应用，以适应不同水平的工作负载，同时确保性能始终都能保持在同一水平。

借助在 RTX PC 和工作站上运行的生成式 AI，NVIDIA ACE NIM 推理微服务可创建栩栩如生的数字人、AI 非玩家角色 (NPC) 和用于客户服务的交互式虚拟形象。

ACE NIM 语音推理微服务 (包括 Riva 自动语音识别、文本转语音和神经网络机器翻译) 可提供准确的转录、翻译和逼真的声音。

NVIDIA Nemotron 小型语言模型是一种智能 NIM，其中包含用于尽可能减少内存使用量的 INT4 量化功能。此外，它还支持角色扮演和 RAG 用例。

而 ACE NIM 外观推理微服务则包括 Audio2Face 和 Omniverse RTX，可用于创建栩栩如生的超逼真动画视觉效果。这有助于提供更具吸引力的游戏角色，为玩家带来更加优秀的沉浸式体验；还能在用户与虚拟客服人员互动时，提供更加令人满意的体验。

深入探究 NIM

随着 AI 的不断发展，快速部署并扩展 AI 功能的能力将变得越来越重要。

NVIDIA NIM 微服务可助力实现突破性创新，为 AI 应用开发的新时代奠定了基础。无论是构建新一代 AI 赋能游戏、开发先进的自然语言处理应用，还是创建智能自动化系统，用户都可以使用这些触手可及的强大开发工具。

如何开始使用：

前往 ai.nvidia.com 体验 NVIDIA NIM 微服务并与之交互。
加入 NVIDIA 开发者计划，以便免费访问 NIM，并将其用于 AI 赋能应用的测试和原型设计。
购买 NVIDIA AI Enterprise 许可证 (带有为期 90 天的免费生产部署评估期），并使用 NVIDIA NIM 在云端或数据中心部署自托管 AI 模型。

生成式 AI 正改变游戏、视频会议和各种交互体验。订阅《解码 AI》时事通讯，了解最新动态，掌握后续进展。