AI 的基本要素:揭秘基础模型的作用与价值

这些神经网络基于海量数据训练,可为推动生成式 AI 革命的应用提供支持。
by Jesse Clayton

编者注:本文属于《解码 AI系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 RTX PC 用户展示全新硬件、软件、工具和加速特性。

万丈高楼平地起,一砖一瓦皆根基。由 AI 驱动的应用也是如此。

基础模型是利用海量原始数据训练而成的 AI 神经网络,其训练以无监督式学习为主。

这种人工智能模型经过专门训练,可以理解并生成人类语言。想象一下,将一台计算机放在偌大的图书馆里,并准备大量的书籍供它阅读和学习,随后它就能像人类一样理解上下文,以及词句背后的含义了。

基础模型

因其具备强大的知识库和使用自然语言进行交流的能力,基础模型的应用范围非常广泛,包括生成和总结文本、辅助生成和分析计算机代码、创作图像和视频,以及进行音频转录和语音合成。

ChatGPT,作为尽人皆知的生成式AI的典型代表,就是基于GPT基础模型构建的聊天机器人该模型目前已推出第四版,即 GPT-4。已经是既能接收文本或图像,也能生成文本或图像回应的大型多模态模型了。

通常情况下,基于基础模型构建的在线应用需要通过数据中心来访问这些模型。但现在,许多此类模型及其驱动的应用都能在配备 NVIDIA GeForceNVIDIA RTX GPU 的 PC 和工作站上本地运行。

基础模型的用途

基础模型具有各种各样的功能,包括:

  • 语言处理:理解和生成文本
  • 代码生成:对计算机代码进行分析和调试 (支持多种编程语言)
  • 视觉处理:分析和生成图像
  • 语音:根据文本生成语音,以及将语音转录为文本

用户可以进一步优化基础模型或直接将其投入使用。为每个生成式 AI 应用训练全新的 AI 模型是相当耗资费时的,所以用户往往会通过对基础模型进行微调来满足特定的应用场景。

得益于提示词和检索增强生成 (RAG) 等数据检索技术,经过预训练的基础模型可展现出出众性能。此外,基础模型也很擅长迁移学习,这代表用户可以训练模型执行与其初始用途相关的第二个任务。

例如,如果一款通用大型语言模型 (LLM) 的功能是与人类对话,那在经过进一步训练后,该模型就能被用作客服聊天机器人,利用企业知识库来为客户答疑解惑。

如今,各行各业的公司都会对基础模型进行微调,以便将各自 AI 应用的性能发挥到极致。

基础模型的种类

目前,投入使用的基础模型已超过 100 种,而这个数字还将持续增长。LLM 和图像生成器是非常热门的两类基础模型。任何人都可以通过 NVIDIA API 目录免费试用多种此类模型,且这种试用对硬件没有要求。

LLM 模型能够理解自然语言并对问题做出回应。例如,Google 的 Gemma 就很擅长文本理解和转换,以及代码生成。如果问它关于天文学家 Cornelius Gemma 的问题,它会回答:“他在天文导航和天文学方面的贡献为科学进步带来了重大影响。” 同时,它还会提供 Cornelius Gemma 的主要成就、宝贵遗产等方面的信息。

Google 的 CodeGemma 由 RTX GPU 上的 NVIDIA TensorRT-LLM 加速,可为开发者社区带来强大的轻量化编码功能,进一步扩展了 NVIDIA 和 Google 在 Gemma 模型方面的协作。CodeGemma 提供了 7B 和 2B 两种预训练模型,专用于代码补全和代码生成任务。

MistralAI 的 Mistral LLM 能够遵循用户指令,完成各种请求和生成创意文本。事实上,在撰写这篇文章的标题时,我们请 Mistral 使用 “AI 解码”的近义词,然后它就给出了现在的标题,并进一步编写了基础模型的定义。

名副其实的 Hello, world

Meta 的 Llama 2 是一款先进的 LLM,可以根据提示词生成文本和代码。

用户可通过 NVIDIA ChatRTX 技术演示应用,在 RTX PC 和工作站上体验 Mistral 和 Llama 2。ChatRTX 允许用户通过 RAG 将基础模型与其个人资料 (例如文档、医生笔记及其他数据) 关联,实现模型的个人化。ChatRTX 由 TensorRT-LLM 加速,可迅速提供与上下文相关的回答。此外,ChatRTX 在本地运行,既保证数据安全,又实现快速响应。

用户可通过 StabilityAI 的 Stable Diffusion XLSDXL Turbo 等图像生成器生成各种图像和令人惊艳的逼真视觉效果。StabilityAI 的视频生成器 Stable Video Diffusion 会以单个图像为条件帧,并利用生成式扩散模型基于条件帧生成多个帧,再将其合成为视频序列。

多模态基础模型能够同时处理多类数据 (例如文本和图像),生成更为复杂的输出。

如果一款多模态模型同时支持文本和图像,那么用户就可以上传图像并询问与该图像相关的问题。这类模型正在快速融入客服等实际应用领域,相比于传统手册,它们能够更快作出回应,也更便于用户使用。

Kosmos 2 是 Microsoft 的开创性多模态模型,旨在按照人类的模式理解和处理图像中的视觉元素。

思考时放眼全球,运行 AI 模型时立足“本地”

GeForce RTX 和 NVIDIA RTX GPU 能够在本地运行基础模型。

既保证数据安全,又实现快速响应。这是因为用户无需依靠基于云的服务,只需利用 ChatRTX 等应用就能在本地 PC 上处理敏感数据,不必连接互联网或与第三方共享数据。

用户可以列表中选择开放的基础模型并下载,然后在自己的硬件上运行。与使用基于云的应用和 API 相比,这种方式不仅成本更低,还能解决延迟和网络连接方面的问题。

请订阅《解码 AI》时事通讯,我们每周都会将新鲜资讯直接投递到您的收件箱。