【杂谈】-RAG增强型图像生成模型
生成式扩散模型(如 Stable Diffusion、Flux)以及视频模型(如 Hunyuan)依赖于在单次资源密集型训练过程中使用固定数据集所获取的知识。任何在该训练之后引入的概念(即知识截止)都不会出现于该模型中,除非通过微调或诸如低秩适应(LoRA)等外部适应技术进行补充。
RAG增强型图像生成模型
文章目录
1、前言
生成式扩散模型(如 Stable Diffusion、Flux)以及视频模型(如 Hunyuan)依赖于在单次资源密集型训练过程中使用固定数据集所获取的知识。任何在该训练之后引入的概念(即知识截止)都不会出现于该模型中,除非通过微调或诸如低秩适应(LoRA)等外部适应技术进行补充。
因此,如果一个能够输出图像或视频的生成系统可以根据需要从在线源获取信息并将其纳入生成过程中,那将是理想的。这样,例如,一个对苹果或特斯拉最新产品一无所知的扩散模型仍然可以生成包含这些新产品的图像。
就语言模型而言,我们中的大多数人都熟悉诸如 Perplexity、Notebook LM 和 ChatGPT-4o 等能够在检索增强生成(RAG)模型中融入新颖外部信息的系统。
然而,在生成图像方面,这是一种不常见的功能,ChatGPT 也会承认自己在这方面存在局限性。
将外部检索的数据融入生成的图像中是具有挑战性的,因为传入的图像必须先被分解为标记(tokens)和嵌入向量(embeddings),然后映射到模型所接受的关于该主题的最近训练域知识。
虽然这个过程对于像 ControlNet 这样的 post-training 工具来说有效,但这种操作在很大程度上仍停留在表面,本质上只是将检索到的图像通过一个渲染管道传输,而没有将其深度整合到模型的内部表示中。
因此,该模型缺乏像 NeRF 这样的神经渲染系统生成新颖视角的能力,NeRF 能够以真正的空间和结构理解来构建场景。
2、成熟逻辑
大型语言模型(LLMs)中基于检索增强生成(RAG)的查询也存在类似的局限性,例如Perplexity。当这种类型的模型处理外部检索的数据时,它的功能很像一个成年人借助一生积累的知识来推断某个主题的概率。
然而,正如一个人不能将新信息追溯性地整合到塑造其基本世界观的认知框架中——当时他们的偏见和先入之见仍在形成中——LLM也不能将其新知识无缝融合到其预训练的结构中。
相反,它只能将新数据“影响”或并置在其现有的内化知识之上,使用学到的原则进行分析和推测,而不是在基础层面进行合成。
这种并置生成与内化生成之间的等效性不足,在生成图像中可能比在基于语言的生成中更为明显:各种研究已经确立了“原生”(而非基于RAG的)生成的更深层次网络连接和更高创造性。
3、具备RAG能力的图像生成的潜在风险
即使从技术上可行,以RAG样式将检索到的网络图像无缝整合到新合成的图像中,安全相关的限制也会带来额外的挑战。
用于训练生成模型的许多数据集经过精心策划,以尽量减少显式、种族主义或暴力内容等敏感类别的存在。然而,这一过程并不完美,残余关联可能会持续存在。为了缓解这一问题,像DALL·E和Adobe Firefly这样的系统依靠二级过滤机制,对输入提示和生成输出进行禁止内容的筛选。
因此,一个简单的不适当内容过滤器——主要阻止过于显式的不当内容——不足以评估检索到的基于RAG的数据的可接受性。此类内容可能仍以超出模型预定义审核参数的方式具有冒犯性或有害性,可能会引入AI缺乏上下文意识来正确评估的材料。
最近发现CCP生产的DeepSeek存在一个漏洞,该漏洞旨在抑制有关被禁政治内容的讨论,这凸显了替代输入途径可能被用来绕过模型的道德保障;可以说,当从互联网检索到的任意新数据打算被纳入新图像生成时,这种情况也适用。
4、图像生成的RAG
尽管存在这些挑战和棘手的政治问题,但一些项目已经出现,试图使用基于RAG的方法将新颖数据融入视觉生成中。
5、ReDi(检索扩散)
2023年的检索扩散(ReDi)项目是一个无学习框架,通过从预计算的知识库中检索相似轨迹来加速扩散模型的推理过程。
在扩散模型的背景下,轨迹是模型从纯噪声中生成图像的逐步路径。通常,这个过程在许多步骤中逐渐发生,每一步都会对图像进行一点细化。
ReDi通过跳过其中的大量步骤来加速这个过程。它不是计算每一个步骤,而是从数据库中检索类似的过去轨迹,并跳到过程中的某个更靠后的点。这减少了所需的计算数量,使基于扩散的图像生成速度更快,同时保持高质量。
ReDi不会修改扩散模型的权重,而是使用知识库来跳过中间步骤,从而减少采样所需的函数估计数量。
当然,这并不等同于将特定图像随意融入生成请求中;但它确实与类似的生成类型有关。
ReDi于2022年发布,这一年潜扩散模型吸引了公众的想象力,ReDi似乎是最早采用RAG方法的扩散式方法之一。
尽管应该提到,Facebook Research在2021年发布了Instance-Conditioned GAN,试图根据新颖的图像输入来调整GAN图像,但这种向潜在空间的投影在文献中对于GAN和扩散模型来说都极为常见;挑战在于如何使这样一个过程无需训练且能实时工作,就像专注于LLM的RAG方法一样。
6、RDM(检索增强扩散模型)
另一个早期尝试利用RAG增强图像生成的是检索增强扩散模型(RDM),它引入了一种半参数化的方法来进行生成性图像合成。传统扩散模型将所有学到的视觉知识存储在其神经网络参数中,而RDM依赖于外部图像数据库:
在训练期间,该模型从外部数据库中检索最近邻(视觉或语义上相似的图像),以引导生成过程。这使模型能够根据实际世界的视觉实例来调整其输出。
检索过程由CLIP嵌入提供支持,旨在迫使检索到的图像与查询具有有意义的相似性,并提供新颖的信息以改善生成。
这减少了对参数的依赖,便于构建较小的模型,这些模型无需大量训练数据集就能实现有竞争力的结果。
RDM方法支持事后修改:研究人员可以在推理时替换数据库,从而允许零样本适应新风格、领域,甚至完全不同的任务,如风格化或基于类的合成。
RDM的一个关键优势是它能够在不重新训练模型的情况下改善图像生成。通过简单地改变检索数据库,模型就能泛化到它从未明确训练过的新概念上。这对于发生领域转变的应用程序特别有用,例如基于不断演变的数据集生成医学影像,或者将文本到图像模型适应于创意应用。
负面地说,这种基于检索的方法依赖于外部数据库的质量和相关性,这使得数据策划成为实现高质量生成的一个重要因素;并且这种方法仍然远未达到商业LLMs中典型的RAG交互式图像合成的水平。
7、ReMoDiffuse(检索增强运动扩散)
ReMoDiffuse是一种用于三维人类运动生成的检索增强运动扩散模型。与传统的运动生成模型不同,后者完全依赖于学习到的表示,而ReMoDiffuse从大型运动数据集中检索相关的运动样本,并将它们整合到去噪过程中,其模式与RDM类似(见上文)。
这使该模型能够生成旨在更自然、更多样化的动作序列,并且在语义上忠实于用户的文本提示。
ReMoDiffuse使用了一种创新的混合检索机制,该机制基于语义和运动学相似性来选择动作序列,以确保检索到的动作在主题上相关,并且在整合到新生成的内容中时物理上是合理的。
然后,该模型使用语义调节变换器(Semantics-Modulated Transformer)来优化这些检索到的样本,该变换器在保持生成序列的特征质量的同时,选择性地融入从检索到的动作中获得的知识:
该项目的“条件混合”技术增强了模型在不同提示和检索条件下的泛化能力,在生成过程中平衡了检索到的动作样本与文本提示,并调整了每一步中每个来源所获得的权重。
这有助于防止产生不现实或重复的输出,即使是对于罕见的提示也是如此。它还解决了扩散模型中常用的无分类器引导技术中经常出现的尺度敏感性问题。
8、RA-CM3(检索增强的多模态语言建模)
斯坦福大学2023年的论文《检索增强的多模态语言建模》(Retrieval-Augmented Multimodal Language Modeling, RA-CM3)允许系统在推理时获取现实世界的信息:
RA-CM3将检索到的文本和图像集成到生成管道中,增强了文本到图像和图像到文本的合成。该模型使用CLIP进行检索,并使用变换器作为生成器,在生成输出之前参考相关的多模态文档。
在MS-COCO上的基准测试显示,与DALL-E及类似系统相比,RA-CM3有显著改进,Fréchet Inception Distance(FID)降低了12分,计算成本也低得多。
然而,与其他检索增强方法一样,RA-CM3并没有无缝地内化其检索到的知识。它更像是将新数据叠加在其预训练网络上,就像LLM通过搜索结果增强响应一样。虽然这种方法可以提高事实准确性,但它不能取代在需要深度合成的领域中对训练更新的需求。
此外,该系统的实际实现似乎尚未发布,即使是基于API的平台也是如此。
8、RealRAG(检索增强现实图像生成)
国内发布的一款新产品,也是促使我们关注RAG增强型生成图像系统的原因,它被称为检索增强现实图像生成(RealRAG)。
RealRAG从ImageNet、斯坦福汽车、斯坦福狗和牛津花等公开数据集策划的数据库中检索相关对象的实际图像。然后,它将检索到的图像集成到生成过程中,以解决模型中的知识差距。
RealRAG的一个关键组成部分是自反性对比学习,它训练检索模型以找到信息丰富的参考图像,而不仅仅是选择视觉上相似的图像。
作者们指出:
“我们的关键见解是训练一个检索器,该检索器检索的图像远离生成器的生成空间,但接近文本提示的表示。”
“为了实现这一目标,我们首先根据给定的文本提示生成图像,然后将这些生成的图像作为查询,在基于真实对象的数据库中检索最相关的图像。这些最相关的图像被用作反思性的否定样本。”
这种方法确保检索到的图像为生成过程贡献缺失的知识,而不是强化模型中现有偏见。
然而,对检索质量和数据库覆盖范围的依赖意味着其有效性可能会因高质量参考图像的可用性而有所不同。如果数据集中不存在相关图像,模型可能仍会对不熟悉的概念感到困惑。
RealRAG是一种非常模块化的架构,与多种其他生成性架构兼容,包括基于U-Net的架构、基于DiT的架构和自回归模型。
一般来说,检索和处理外部图像会增加计算开销,系统的性能取决于检索机制在不同任务和数据集上的泛化能力。
9、总结
这是对图像检索多模态生成系统的代表性概述,而非详尽概述。有些系统使用检索仅仅是为了提高视觉理解或数据集策划等不同目的,而不是旨在生成图像。一个例证是Internet Explorer。
文献中许多其他集成了RAG的项目仍未发布。只有原型和已发表的研究,如Re-Imagen,尽管它来自谷歌,但只能访问本地自定义数据库中的图像。
此外,百度在2024年11月宣布了基于图像检索的增强生成(iRAG)平台,该平台使用从数据库中检索到的图像。尽管iRAG据报道可在Ernie平台上使用,但关于这个检索过程没有进一步的细节,似乎依赖于本地数据库(即,本地服务于用户,用户无法直接访问)。
而且,2024年的论文《统一的文本到图像生成和检索》提供了另一种基于RAG的方法,使用外部图像在生成时增强结果——再次强调,是从本地数据库而不是从临时的网络源。
围绕基于RAG的图像生成增强的兴奋点很可能会集中在能够将互联网来源的或用户上传的图像直接集成到生成过程中的系统上,并且允许用户参与图像选择或来源。
然而,这对于至少两个原因来说是一个重要的挑战;首先,因为这些系统的有效性通常取决于在资源密集型训练过程中形成的深度集成关系;其次,正如之前所指出的,出于安全、合法性和版权限制的考虑,这使得API驱动的网络服务以及一般的商业部署不太可能具备这一功能。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)