编者注:本文属于《AI 解密》系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 GeForce RTX PC 和 NVIDIA RTX 工作站用户展示全新硬件、软件、工具和加速特性。
图像生成模型 — 生成式 AI 的常用子集 — 可以解析并理解书面语言,然后将文字转换为几乎任何风格的图像。
Black Forest Labs 的一系列新模型代表了图像生成领域的前沿技术 — 现在可在 PC 和工作站上试用 — 在 GeForce RTX 和 NVIDIA RTX GPU 上的运行速度最快。
流畅的功能
FLUX.1 AI 是由 Black Forest Labs 开发的文本生成图像模型套件。这些模型基于 Diffusion Transformer (DiT) 体系架构而构建,以便大参数量的模型保持高效运行。Flux 模型在拥有 120 亿个参数的模型上进行训练,以生成高质量图像。
DiT 模型属于高效的计算密集型模型 — NVIDIA RTX GPU 对于处理这些新模型至关重要,其中最大规模的模型如果不进行重大调整,将无法在非 RTX GPU 上运行。Flux 模型现在支持 NVIDIA TensorRT 软件开发套件,该套件可将这些模型的性能提升高达 20%。用户可以在 ComfyUI 中借助 TensorRT 试用 Flux 和其他模型。
Flux 的优势
FLUX.1 在生成高质量、多样化的图像方面表现卓越,其出色的指令遵循性意味着 AI 能够准确理解并执行指令。提示依从性较高,意味着生成的图像与文本提示描述的元素、风格和情绪高度匹配。提示依从性较低会导致图像可能部分或完全偏离给定的指令。
FLUX.1 以能够精确渲染人体解剖结构 (包括手部和人脸等具有挑战性的复杂特征) 而著称。FLUX.1 还显著改进了在图像中生成易读文本的过程,解决了文本转图像模型的另一个常见挑战。这使得 FLUX.1 模型非常适合需要精确文本表示的应用,例如宣传材料和书籍封面。
FLUX.AI 具有三种变体,可为用户提供最适合其工作流的选择,而不会牺牲质量:
- FLUX.1 pro:为企业用户提供最高质量的模型;可通过应用编程接口访问。
- FLUX.1 dev:FLUX.1 pro 的免费精华版本,仍然具有较高质量。
- FLUX.1 schnell:运行速度最快的模型,非常适合本地开发和个人使用;具有宽松的 Apache 2.0 许可证。
dev 和 schnell 模型为开源版本,Black Forest Labs 在流行平台 Hugging Face 上提供对其关键功能的访问。这一做法得到社区广泛认可。
得到社区广泛认可
自发布以来的三周内,Flux 模型的 dev 和 schnell 变体已在 HuggingFace 上被下载 200 多万次。
FLUX.1 的强大功能受到用户广泛赞誉,称其能够生成具有非凡细节和逼真度、视觉效果令人惊艳的图像,并且可以处理复杂的提示,而无需调整大量参数。
此外,FLUX.1 还善于处理各种艺术风格,并能够快速高效地生成图像,因此是完成个人和专业项目不可或缺的重要工具。
入门指南
用户可以使用 ComfyUI 等流行社区网页访问 FLUX.1。社区运行的 ComfyUI 维基百科提供了入门分步说明。
许多 YouTube 创作者还提供了有关 Flux 模型的视频教程,例如 MDMZ 制作的这个视频教程:
使用井号标签 #fluxRTX 在社交媒体上分享您生成的图像,即有机会成为 NVIDIA AI 频道的精选作品。
生成式 AI 正在改变游戏、视频会议和各类互动体验。请订阅《解码 AI》时事通讯,我们每周都会将新鲜资讯直接投递到您的收件箱。