NVIDIA RTX AI 加速 FLUX.1 Kontext — 现已开放下载

NVIDIA RTX 与 TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA Jetson 加速运行。
作者 Michael Fukuyama

Black Forest Labs,作为全球顶尖 AI 研究实验室之一,刚刚为图像生成领域带来颠覆性变革。

该实验室的 FLUX.1图像模型凭借高质量视觉输出和优秀的提示词遵循度,引发全球业界关注。现在,通过推出其最新 FLUX.1 Kontext 模型,该实验室从根本上改变了用户引导和优化图像生成过程的方式。

为了获得预期效果,AI 艺术家们通常需要整合多个模型架构并配合 ControlNets 模块,而这些 AI 模型有助于引导图像生成器的输出。这通常需要结合多个 ControlNets 或采用更高级的技术,例如 NVIDIA AI Blueprint 中推出的 3D 引导图像生成,这种方法通过 3D 场景粗稿确定图像构成。

全新 FLUX.1 Kontext 模型通过单一模型实现自然语言驱动的图像生成与编辑,大幅简化了工作流程。

NVIDIA 已与 Black Forest Labs 达成合作,通过 NVIDIA TensorRT 及量化技术对 FLUX. 1 Kontext [dev] 进行深度优化,使其在 RTX GPU 上实现更快的推理速度与更低的 VRAM 显存需求。

对于创作者和开发者而言,通过 TensorRT 优化,RTX 设备可带来更快的编辑速度、更流畅的迭代和更强大的控制。

FLUX.1 Kontext [dev]:语境感知图像生成

Black Forest Labs 于五月推出 FLUX.1 Kontext 系列图像模型,该模型同时接受文本和图像提示。

该系列模型支持用户基于参考图像进行创作,并使用简单的语言进行编辑,无需通过微调或使用多 ControlNet 的复杂工作流。

FLUX.1 Kontext 是一种专为图像编辑构建的开放式生成模型,其引导式、逐步生成架构支持从局部细节到全局场景转换的精准控制。由于该模型接受文本和图像双输入,让用户可以轻松引用视觉概念,并以自然、直观的方式引导其创作。这可以实现连贯且高质量的图像编辑,同时忠实于原始概念。

FLUX.1 Kontext 的关键功能包括:

  • 角色一致性: 确保人物特征在多镜头多视角下保持统一。
  • 局部编辑: 在不改变图像其他部分的情况下,修改特定元素。
  • 风格迁移: 将参考图像的风格和氛围应用于新场景。
  • 实时性能:低延迟生成支持快速迭代和反馈。

Black Forest Labs 上周正式在 Hugging Face平台上发布 FLUX.1 Kontext 模型权重,并同步推出经过 TensorRT 加速优化的专用版本。

三组对照图像展示了 FLUX.1 Kontext [dev] 的多轮编辑能力:同一餐桌场景经多次修改,但始终保留原始花卉元素。原始图像 (左);首次编辑将其转换为包豪斯风格的图像 (中);第二次编辑采用柔和色调的调色板改变了图像的色彩风格 (右)。

传统上,高级图像编辑需要复杂的指令,并且难以创建遮罩层、深度图或边缘图。FLUX.1 Kontext [dev] 引入了一种更加直观且灵活的界面,将逐步编辑与用于扩散模型推理的尖端优化相结合。

[dev] 模型强调灵活性与控制力。该系统支持角色一致性、风格保留和局部图像调整等功能,并集成了 ControlNet 功能,实现结构化视觉提示。

FLUX.1 Kontext [dev] 现已登陆 ComfyUI 及 Black Forest Labs Playground 平台,其搭载 NVIDIA NIM 微服务版本预计将于八月正式发布。

专为 RTX 优化并采用 TensorRT 加速技术

FLUX.1 Kontext [dev] 通过简化复杂的工作流程来加速创意。为了进一步简化工作并扩大可访性,NVIDIA 与 Black Forest Labs 合作:通过模型量化,降低 VRAM 显存需求,使更多用户能在本地运行该模型,并采用 TensorRT 对其进行优化,使其性能翻倍。

量化处理后,FP8 的模型大小从 24GB 减小至 12GB (Ada),FP4 的模型大小从 24GB 减小至 7GB (Blackwell)。FP8 模型针对 GeForce RTX 40 系列 GPU 进行优化,这些 GPU 的 Tensor Core 配备了 FP8 加速器。FP4 模型专为 GeForce RTX 50 系列 GPU 优化,该系列显卡采用新型 SVDQuant 量化技术,在将模型大小缩减的同时,保持卓越的图像生成质量。

TensorRT 是一个利用 NVIDIA RTX GPU 中 Tensor Core 实现最大化性能的框架,与使用 PyTorch 运行原始 BF16 模型相比,能够提供超过两倍的加速效果。

与 BF16 GPU 相比,速度提升 (左,值越高效果越好) 和运行 FLUX.1 Kontext [dev] 在不同精度下所需的内存占用 (右,值越低效果越好)。

敬请访问 NVIDIA 技术博客,了解更多关于 NVIDIA 优化以及 FLUX.1 Kontext [dev] 入门指南。

开始使用 FLUX.1 Kontext

FLUX.1 Kontext [dev] 可在 Hugging Face (Torch 和 TensorRT) 平台下载。

对这些模型测试感兴趣的 AI 爱好者可以下载 Torch 版本,并在 ComfyUI 平台上部署使用。Black Forest Labs 还提供一个在线测试平台用于测试该模型。

针对高级用户和开发者,NVIDIA 正在开发示例代码,方便将 TensorRT 流水线轻松集成到工作流程中。请在本月后期查看 DemoDiffusion 仓库。

等等,还不止这样

Google 上周宣布推出 Gemma 3n,这是一款新型多模态小语言模型,非常适合在 NVIDIA GeForce RTX GPUs 以及用于边缘 AI 和机器人技术的 NVIDIA Jetson 平台上运行。

AI 爱好者可以在 Ollama 和 llama.cpp 框架中,借助 RTX 加速,使用 Gemma 3n 模型,并通过他们喜欢的应用程序,比如 AnythingLLM 和 LM Studio,轻松体验和开发 AI 功能。

性能测试于 2025 年 6 月在 Ollama 平台上使用 Gemma 3n 进行,该模型拥有 40 亿有效参数,输入上下文长度 (ISL) 为 100,输出上下文长度 (OSL) 为 200。

此外,开发者可通过 Ollama 框架轻松部署 Gemma 3n 模型,并充分利用 RTX 加速优势。详细了解如何在 Jetson 和 RTX 上运行 Gemma 3n

加入 NVIDIA Discord 服务器, 与社区开发者和 AI 爱好者交流,探讨 RTX AI 的无限潜力。

每周,RTX AI Garage 系列博客都会为那些希望详细了解 NVIDIA NIM 微服务和 AI Blueprint 以及在 AI PC 和工作站上构建 AI 智能体、创意工作流、数字人、生产力应用等的用户提供社区驱动的 AI 创新和内容。

欢迎关注 NVIDIA 在微博、微信和哔哩哔哩的官方账号,获取最新资讯请订阅 RTX AI PC 新闻通讯

请参阅有关软件产品信息的通知