Gemma + NIM:NVIDIA 与 Google DeepMind 合作推动大语言模型创新

支持 NVIDIA NIM 推理微服务的谷歌最新开源模型 PaliGemma 首次亮相。
作者 Dave Salvator

驱动生成式 AI 的大语言模型创新前赴后继,处理文本、图像和声音等多种类型数据的模型正变得日益普遍。

然而,构建和部署这些模型仍具有挑战性。开发者需要一种方法来快速体验和评估模型,在确定最适合其用例的模型后,再以一种经济高效并能带来最佳性能的方式来优化模型性能。

为了让开发者更加轻松地创建具有世界一流性能的 AI 应用,NVIDIA 和谷歌在 2024 谷歌 I/O 开发者大会上宣布了三项新的合作。

Gemma + NIM

借助 TensorRT-LLM,NVIDIA 正在与谷歌一同优化在此次大会上推出的两个新模型:Gemma 2 和 PaliGemma。这两个模型由与构建 Gemini 模型相同的研究和技术构建而成,每个模型都专注于一个特定领域:

  • Gemma 2 是具有广泛用途的新一代 Gemma 模型,借助全新的架构来实现突破性的性能和效率。
  • PaliGemma 是受 PaLI-3 启发的开源视觉语言模型(VLM)。PaliGemma 基于 SigLIP 视觉模型和 Gemma 语言模型等开放组件构建而成,专门用于视觉语言任务,例如图像和短视频字幕、视觉问题解答、图像文本理解、对象检测和对象分割等。PaliGemma 在各种视觉语言任务中具有领先于同类模型的微调性能,并且还得到 NVIDIA JAX-Toolbox 的支持。

Gemma 2 和 PaliGemma 将与 NVIDIA AI Enterprise 软件平台中的 NVIDIA NIM 推理微服务一起提供,可简化 AI 模型的大规模部署。从今天开始,PaliGemma 的 API 目录可提供对这两个新模型的 NIM 支持,两个新模型也将很快在 NVIDIA NGC 和 GitHub 上以容器的形式发布。

将加速数据分析引入 Colab

谷歌还宣布开源 GPU 数据框架库 RAPIDS cuDF 将默认支持谷歌 Colab,这是最受数据科学家欢迎的开发者平台之一。现在,谷歌 Colab 的 1000 万月度用户只需几秒钟,就能使用 NVIDIA Tensor Core GPU 将基于 pandas 的 Python 工作流加速高达 50 倍,而且无需修改代码。

借助 RAPIDS cuDF,使用谷歌 Colab 的开发者可以加快探索性分析和生产数据管道的速度。虽然 pandas 因其直观的 API 而成为全球最流行的数据处理工具之一,但随着数据规模的增长,应用程序往往会捉襟见肘。即便数据只有 5-10 GB ,许多简单的操作在 CPU 上也需要数分钟才能完成,从而降低了探索性分析和生产数据管道的速度。

RAPIDS cuDF 旨在通过在适用的 GPU 上无缝加速 pandas 代码来解决这个问题,而在不适用的 GPU 上则退回到 CPU-pandas。由于 Colab 默认使用 RAPIDS cuDF,世界各地的开发者都能用上加速数据分析。

随时随地使用 AI

谷歌和 NVIDIA 还宣布借助搭载 NVIDIA RTX 显卡的 AI PC 来开展一项 Firebase Genkit 的合作,使应用开发者能够轻松地将生成式 AI 模型(例如新的 Gemma 模型系列)集成到他们的网络和移动应用中,以便提供自定义内容、进行语义搜索和回答问题。开发者可以先使用本地 RTX GPU 启动工作流,然后将工作无缝迁移到谷歌云基础设施。

更加方便的是,开发者可以通过 Genkit 使用 JavaScript(一种移动开发者在构建应用时常用的编程语言)来构建应用。

创新无止境

NVIDIA 和谷歌云正在多个领域开展合作,共同推进 AI 的发展。无论是即将推出的 Grace Blackwell 架构 DGX Cloud 平台和 JAX 框架支持,还是将 NVIDIA NeMo 框架引入 Google Kubernetes Engine,两家公司的全栈合作为客户在谷歌云上借助 NVIDIA 技术使用 AI 带来了更多可能性。