共耀光芒： Google Gemma 优化后可在 NVIDIA GPU 上运行

2024 年 2 月 21 日，NVIDIA 携手 Google 在所有 NVIDIA AI 平台上发布面向 Gemma 的优化功能，Gemma是Google最先进的新型轻量级 2B 和 7B 开放语言模型，可在任何地方运行，从而降低成本并加快特定领域用户案例的创新工作。

NVIDIA 和 Google 的团队紧密合作，利用 NVIDIA TensorRT-LLM (用于优化大语言模型推理性能的开源库)，在数据中心的 NVIDIA GPU、云计算和搭载 NVIDIA RTX GPU 的 PC 上运行时，加速 Gemma 性能 (Gemma 由创建 Gemini 模型的相同研究和技术构建)。

这使开发者能将全球高性能 AI PC 中超过 1 亿台搭载 NVIDIA RTX GPU 的用户作为潜在用户进行开发。

开发者还可在搭载 NVIDIA GPU 的云端运行 Gemma，该实例拥有141GB HBM3e 显存，速度为 4.8TB/秒，Google 将于今年部署该实例。

此外，企业级开发者还可利用 NVIDIA 丰富的工具生态系统 (包括依托 NeMo 框架的 NVIDIA AI Enterprise 和 TensorRT-LLM)，对 Gemma 进行微调，并将优化后的模型部署到生产应用中。

详细了解有关 TensorRT-LLM如何加快 Gemma 推理速度的更多信息，以及面向开发者的其他信息：包括 Gemma 的多个模型文件和模型的 FP8 量化版本，以上这些都使用 TensorRT-LLM 进行优化。您可在 NVIDIA AI Playground 上直接通过浏览器体验 Gemma 2B 和Gemma 7B。

Gemma 即将上线 Chat with RTX

NVIDIA Chat with RTX 技术演示版也即将支持 Gemma，该Demo使用检索增强生成(RAG) 和 TensorRT-LLM 软件，为用户提供在本地 Windows RTX PC 上的生成式AI功能。

借助 Chat with RTX，用户可将 PC上的本地文件轻松连接到大语言模型，利用自己的数据打造个性化聊天机器人。

由于模型在本地运行，因此可快速生成结果，而用户数据则保留在本地设备上。与依赖基于云的 LLM 服务不同，Chat with RTX 可让用户在本地 PC 上处理敏感数据，而无需与第三方共享这些数据或连接互联网。