性能瞩目:TensorRT-LLM,使大语言模型在搭载 RTX 的Windows平台上运行速度提高 4 倍

TensorRT 为 Stable Diffusion 加速,RTX VSR 视频超分辨率 (Video Super Resolution) v1.5 版发布
作者 Jesse Clayton

生成式 AI (Generative AI) 是个人计算史上最重要的趋势之一,推动游戏、创作、视频编辑、日常工作、开发等的发展。

GeForce RTX 和 NVIDIA RTX GPU 配备名为 Tensor Cores 的专用 AI 处理器,将生成式 AI (Generative AI)的强大功能原生引入超过 1 亿台 Windows PC 和工作站。

如今,TensorRT-LLM for Windows 使PC 生成式AI (Generative AI) 速度提高 4 倍,TensorRT-LLM for Windows 是一个开源库,可加速最新 AI 大语言模型 (如 Llama 2 和 Code Llama) 的推理性能。此前,TensorRT-LLM for Datacenter 已在上个月发布。

NVIDIA 还发布帮助开发者加速 LLM 的工具,包括使用 TensorRT-LLM 优化自定义模型的脚本、TensorRT 优化的开源模型,以及一个展示 LLM 响应速度和质量的开发者参考项目。

TensorRT 加速现已应用于 Automatic 1111 发布的热门应用 Stable Diffusion WebUI。它将生成式 AI(Generative AI)扩散模型的速度提升 2 倍,比此前最快的速度还快。

此外,作为今天发布的 Game Ready 驱动的一部分,RTX VSR 视频超分辨率(Video Super Resolution) v1.5 版现已发布,11月初发布的 NVIDIA Studio 驱动也将支持该技术。

TensorRT 为 LLM 增效

LLM 正在提高生产力——聊天、总结文档和网页内容、起草电子邮件和博客,并且是由 AI 和其他软件所组成的全新工作流的核心,可以自动分析数据并生成大量内容。

TensorRT-LLM 是 NVIDIA 用于加速 LLM 推理的库,使开发者和最终用户可以享受运行 LLM 的更多优势。现在,LLM 在搭载 RTX 的 Windows PC 上的运行速度可提高 4 倍。

在更大的批量大小下,这种加速可显著改善更复杂的 LLM 使用体验,如写作和编码助手,可同时输出多个唯一的自动完成结果,从而加速性能并改进质量,让用户可以有最好的选择。

TensorRT-LLM 加速还有利于将 LLM 功能与其他技术相结合,例如在检索增强生成 (RAG) 中,LLM 与向量库或向量数据库组合。RAG 使 LLM 能根据特定的数据集 (如用户的电子邮件或网站文章) 提供更有针对性的答案。

在实际应用中,当我们向 LLaMa 2 基础模型提出“《心灵杀手2》(Alan Wake 2) 集成了 NVIDIA 的哪些技术?”这一问题时,它给出“游戏尚未公布”这一毫无帮助的回答。

相反,使用 RAG 将 GeForce 新闻添加到向量库中,并连接到相同的 Llama2 模型,不仅得到正确答案——NVIDIA DLSS 3.5、NVIDIA Reflex 和全景光线追踪,而且在 TensorRT-LLM 加速的助力下响应速度更快。这种速度与能力的结合为用户提供更智能的解决方案。

TensorRT-LLM 即将能从 NVIDIA 开发者网站下载。

TensorRT 优化的开源模型和以 GeForce 新闻为示例项目的 RAG Demo 可从 ngc.nvidia.com和 GitHub.com/NVIDIA下载。

自动加速

Diffusion 模型 (如 Stable Diffusion) 用于想象和创造令人惊叹的新颖艺术作品。图像生成是一个迭代过程,可能需要数百次循环才能获得完美输出。如果在性能不足的 PC 上进行,这种循环可能会增加数小时的等待时间。

TensorRT 旨在通过神经网络层融合、精度校准、内核自动选择和其他功能加速AI模型,从而显著提高推理效率和速度。这使它成为实时应用和资源密集型任务不可或缺的工具。

现在,TensorRT 使 Stable Diffusion 生成速度翻倍。

兼容最热门的 Automatic1111 WebUI,借助 TensorRT 加速 的 Stable Diffusion 可以帮助用户加快迭代速度,减少 PC 等待时间,更快生成最终图像。在 GeForce RTX 4090 上,它的运行速度是使用苹果 M2 Ultra 的 Mac 顶配版的 7 倍。该扩展即日起可供下载

基于 Stable Diffusion 流程的 TensorRT Demo 为开发者提供了如何为 TensorRT 加速准备扩散模型并部署加速的参考实现。这是一个起点,它可以为对此感兴趣的开发者加速 Diffusion 流程,并为应用带来快如闪电的推理能力。

超级视频体验

AI 正在改善所有用户的诸多日常 PC 体验。流媒体视频是 PC 上最受欢迎的活动之一,其来源几乎无所不包,如 YouTube、Twitch、Prime Video、Disney+ 等。得益于 AI 和 RTX,它的图像质量又有全新提升。

RTX VSR 视频超分辨率在 AI 像素处理方面的重大突破,通过减少或消除压缩视频造成的失真,提高直播视频内容的质量。此外,它还能锐化边缘和细节。

现在,RTX VSR 视频超分辨率 v1.5 版通过更新模型进一步提升视频画面质量,消除以原始分辨率播放内容的伪影,并增加对采用 NVIDIA Turing 架构的 RTX 20 系列 GPU的支持,包括:专业图形卡和 GeForce RTX 20 系列 GPU 。

重新训练 VSR  AI 模型有助于它学会准确识别微妙细节和压缩失真之间的区别。因此,经过 AI 增强的图像在放大过程中能更准确地保留细节。细节更加清晰可见,整体图像看起来更加锐利清晰。

RTX VSR 视频超分辨率 v1.5 提升细节

v1.5 版的全新功能是消除以屏幕原始分辨率播放视频时的失真。最初的版本仅在视频分辨率被提升时增强视频效果。现在,例如在 1080p 分辨率显示器上串流 1080p 视频会更流畅,因为严重的失真会显著改善。

 RTX VSR 现在能消除以原始分辨率播放视频时的失真

即日起,所有 RTX 用户可在最新的 Game Ready 驱动中获取 RTX VSR 视频超分辨率 v1.5 版使用,下月初发布的 NVIDIA Studio 驱动也将支持该技术。

RTX VSR 视频超分辨率是NVIDIA软件、工具、库和 SDK (如上文提到的软件、工具、库和 SDK,以及 DLSS、Omniverse、AI Workbench等软件) 的一部分,这些软件、工具、库和 SDK 为消费者带来超过400 款 AI 加速的应用和游戏。

AI 时代即将到来。 RTX 正为其发展的每一步增加动力。