FLUX.1-Kontext-dev模型论文速读:潜在空间中上下文图像生成与编辑的流匹配
《FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space》提出了一种基于流匹配的新型图像生成与编辑模型。该研究针对现有模型在多轮编辑中的角色漂移、速度慢等问题,通过潜在空间修正流变换器架构,统一处理图像生成和编辑任务。模型采用3D RoPE位置编码和潜在对抗扩散蒸馏技术,显著
《FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space》论文
一、引言
论文开头强调了图像在现代交流中的重要性,指出随着视觉内容的增长,对直观且准确的图像编辑工具的需求不断增加。传统的图像处理和生成式处理存在差异,而现有的图像编辑模型存在一些问题,例如基于指令的方法受限于生成管道、多轮编辑中难以保持角色和物体的准确性,以及自回归编辑模型速度慢等。为了解决这些问题,作者提出了 FLUX.1 Kontext,这是一个基于流匹配的生成模型,旨在统一图像生成和编辑任务,能够在保持字符一致性和稳定性的同时,实现快速生成。
二、研究方法
FLUX.1 模型基础
FLUX.1 是一个基于修正流变换器的模型,训练是在图像自编码器的潜在空间中进行的。该模型通过扩展训练计算和使用 16 个潜在通道,提升了重建能力。它由双流块和单流块混合构成,双流块对图像和文本令牌使用独立权重,通过注意力操作进行混合;之后将序列连接并通过单流块处理,最后丢弃文本令牌并解码图像令牌。为提高单流块的 GPU 利用率,采用融合前馈块,并引入三维旋转位置嵌入(3D RoPE)。
FLUX.1 Kontext 模型架构
FLUX.1 Kontext 的目标是学习一个能够同时基于文本提示和参考图像生成图像的模型。它通过简单的序列连接处理不同输入/输出分辨率和宽高比,并扩展到多个图像。在训练过程中,从 FLUX.1 文本到图像检查点开始,并收集和策划数百万个关系对进行优化。使用冻住的 FLUX 自编码器将图像编码成潜在令牌,将上下文图像令牌附加到目标图像令牌后,输入模型的视觉流。采用 3D RoPE 嵌入来编码位置信息,使用修正流匹配损失进行训练,并通过潜在对抗扩散蒸馏(LADD)减少采样步骤并提升样本质量。
三、实验与评估
KontextBench 基准测试
为了更准确地评估 FLUX.1 Kontext 的性能,作者引入了 KontextBench,这是一个包含 1026 个图像 - 提示对的基准测试,涵盖五类任务:局部编辑、全局编辑、角色参考、风格参考和文本编辑。这个基准测试从用户那里收集了现实世界的用例,提供了可靠的评估基础。
状态艺术比较
在图像到图像合成方面,FLUX.1 Kontext 在多个编辑任务上表现出优异的性能,包括图像质量、局部编辑、角色参考、风格参考、文本编辑和计算效率等。在人类评估中,FLUX.1 Kontext 在文本编辑和局部编辑类别中表现最佳。在计算效率方面,FLUX.1 Kontext 的延迟最低。在文本到图像合成方面,作者提出了一个新的评估框架,将评估分解为五个维度:提示遵循、美学、真实性、排版准确性和推理速度。在这些维度上,FLUX.1 Kontext 展现出了平衡的性能。
迭代工作流
FLUX.1 Kontext 在多轮编辑中表现出较好的字符和对象一致性,这对于品牌敏感和故事讲述应用至关重要。通过计算 AuraFace 嵌入的余弦相似性,证明了 FLUX.1 Kontext 在编辑过程中的视觉漂移较小。
专门应用
FLUX.1 Kontext 支持多种专门应用,包括风格参考,即从参考图像中提取艺术风格并应用到新场景中;通过视觉线索进行直观编辑,如响应几何标记;以及提供复杂的文本编辑功能,如标志优化、拼写更正和风格适配。
四、讨论
论文总结了 FLUX.1 Kontext 的贡献,包括统一的架构、迭代中的优越字符一致性、交互速度和 KontextBench 基准测试。同时,作者也指出了模型的一些局限性,如多轮编辑可能引入视觉伪影、偶尔无法准确遵循指令以及蒸馏过程可能引入影响输出保真度的视觉伪影。最后,作者提出了未来工作的方向,包括扩展到多个图像输入、进一步扩展和降低推理延迟,以及将方法扩展到视频领域。
五、结论
FLUX.1 Kontext 作为一个统一的生成模型,在图像生成和编辑任务中展现了强大的性能。它通过简单的序列连接和训练方法,有效地解决了现有模型在多轮编辑中角色漂移、推理速度慢和输出质量低等问题。通过 KontextBench 基准测试的验证,FLUX.1 Kontext 在多种编辑任务中表现出色,为图像处理领域提供了一个新的高效解决方案。
FLUX.1 Kontext 论文核心技术总结

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)