FG-CLIP:细粒度视觉文本对齐
对比语言图像预训练模型 (CLIP) 在图像文本检索和零样本分类等多模态任务中表现出色,但由于其侧重于粗粒度的简短标题,在细粒度理解方面存在不足。 为了解决这个问题,我们提出了细粒度 CLIP (FG-CLIP),它通过三个关键创新增强了细粒度理解能力。 首先,我们利用大型多模态模型生成 16 亿对长标题图像对,以捕捉全局语义细节。 其次,我们构建了一个高质量的数据集,包含 1200 万张图像和
摘要
对比语言图像预训练模型 (CLIP) 在图像文本检索和零样本分类等多模态任务中表现出色,但由于其侧重于粗粒度的简短标题,在细粒度理解方面存在不足。 为了解决这个问题,我们提出了细粒度 CLIP (FG-CLIP),它通过三个关键创新增强了细粒度理解能力。 首先,我们利用大型多模态模型生成 16 亿对长标题图像对,以捕捉全局语义细节。 其次,我们构建了一个高质量的数据集,包含 1200 万张图像和 4000 万个与详细标题对齐的区域特定边界框,以确保精确且丰富的上下文表示。 第三,我们整合了 1000 万个细粒度困难负样本,以提高模型区分细微语义差异的能力。 我们通过整合高质量的区域特定标注和细粒度困难负样本,构建了一个综合数据集,称为 FineHARD。 针对这些数据,我们精心设计了相应的训练方法。 广泛的实验表明,FG-CLIP 在各种下游任务中均优于原始 CLIP 和其他最先进的方法,包括细粒度理解、开放词汇目标检测、图像文本检索和通用多模态基准测试。 这些结果突出了 FG-CLIP 在捕捉细粒度图像细节和提高整体模型性能方面的有效性。
1引言
视觉和语言的整合(Alayrac等人,2022;Ramesh等人,2022;Lin等人,2023;Gabeff等人,2024)一直是人工智能领域长期以来的目标,旨在开发能够以丰富视觉和语言方式理解和推理世界的模型。 多模态预训练的最新进展,例如CLIP(Radford等人,2021),通过对比学习学习图像和文本的联合表示,在这个方向上取得了重大进展。 这些模型在各种下游任务中取得了最先进的性能,包括图像文本检索(Pan等人,2023;Sun等人,2024;Zhang等人,2024)、图像字幕(Mokady等人,2021;Li等人,2024;Yao等人,2024)和视觉问答(Li等人,2023a;Parelli等人,2023;Team等人,2024;Wang等人,2025)。 然而,尽管这些模型具有令人印象深刻的能力,但它们经常难以处理细微的细节,尤其是在识别物体属性及其关系方面。
最近的研究(Liu等人,2023a;Wu等人,2024b;Zhang等人,2024;Zheng等人,2024;Jing等人,2024) 指出了CLIP细粒度学习能力有限的两个主要原因。 首先,原始CLIP模型的文本编码器最多只支持77个符元,限制了其处理详细描述的能力,并阻碍了其捕捉细微文本信息的能力。 其次,CLIP将整张图像与相应的文本描述对齐,这使得难以从视觉特征中提取有价值的特定区域表示。 因此,该模型难以在图像区域及其相应的文本属性之间实现细粒度的对齐,限制了其在复杂识别场景中的有效性。
为了解决这些问题,研究人员提出了扩展位置编码以支持更长的符元序列(Wu等人,2024b;Zhang等人,2024;Zheng等人,2024)并将目标检测数据集集成到CLIP训练中(Zhong等人,2022;Jing等人,2024)。 通过将边界框与类别标签对齐,这些方法旨在增强区域特征提取。 尽管这些方法已经显示出一些改进,但它们在细粒度视觉识别和开放词汇目标检测方面仍然不足。 现有方法(Jing等人,2024;Zhang等人,2024)通常引入相对较少的长标题,通常在一百万量级,这不足以有效学习细粒度细节。 此外,将图像区域与类别标签对齐会限制语义多样性,限制了模型在开放世界场景中的泛化能力。 此外,缺乏困难的细粒度负样本限制了模型区分同一类别但具有不同属性的对象的能力。 在这项工作中,我们介绍了细粒度CLIP (FG-CLIP),一种新颖的方法,旨在通过三个关键创新来增强CLIP的细粒度理解能力。
首先,我们通过使用最先进的大型多模态模型 (LMM) 生成长标题,显著增强了全局语义对齐(Hong et al., 2024)。 此过程引入了 16 亿对长标题图像,提供了前所未有的数据规模,使 FG-CLIP 能够捕捉全局语义层面的细微细节,从而增强其感知复杂和详细信息的能力。
其次,为了改善图像和文本之间的细粒度对齐,我们开发了一个高质量的视觉定位数据集。 该数据集包含 1200 万张图像中 4000 万个边界框的详细描述,确保每个区域都用丰富的上下文标题进行精确标注。 通过创建如此庞大且标注丰富的数据库,我们使模型能够学习精确且上下文丰富的表示,从而显著提高其在需要细粒度理解的任务上的性能。
第三,为了进一步增强模型的鲁棒性和辨别能力,我们引入了一个包含 1000 万个困难细粒度负样本的大规模语料库。 通过将这些具有挑战性的负样本纳入训练过程,FG-CLIP 学会区分语义相似但不同的对之间的细微差异,从而显著提高其在各种下游任务上的性能。 我们将高质量的视觉定位数据和困难细粒度负样本整合为一个名为 FineHARD 的完整数据集。
与以前的方法相比,FG-CLIP 在各种基准任务中都显示出显著的改进。 我们的综合增强使模型能够在捕捉细微的视觉细节方面取得优越的性能,这在我们对细粒度理解、边界框分类、长标题图像文本检索和开放词汇目标检测等任务上取得的最新结果中得到了证明。 此外,当用作 LMM 的主干(Liu et al., 2023b)时,FG-CLIP 在涉及属性分析(Hudson & Manning, 2019)、目标定位(Kazemzadeh et al., 2014)和减少输出幻觉(Li et al., 2023c)的任务中也表现出性能改进。 我们在附录C中提供了可视化结果,以展示细粒度理解的改进。 这些结果突出了 FG-CLIP 在捕捉细粒度图像细节和提高整体模型性能方面的有效性。 为了促进未来的研究和应用,我们将模型、数据集和代码公开发布在 https://github.com/360CVGroup/FG-CLIP。
图 1:FG-CLIP 概述。 CLSimg 表示视觉Transformer (ViT) 输出的图像类别特征,而 CLStext 代表文本模型针对多个输入(包括长标题、短标题、区域标题以及图像内特定区域的正负描述)汇总的类别特征。 FG-CLIP 的训练分为两个阶段:第一阶段利用全局级别的图像-标题对实现初始的细粒度对齐;第二阶段补充使用额外的区域级别标题,包括详细的区域标题和正/负区域描述,以进一步细化对齐。
2相关工作
2.1对比语言-图像预训练
对比学习已成为多模态预训练中一种强大的范式,极大地推动了图像-文本对齐领域的发展。 像 CLIP 这样的模型通过利用大规模图像-文本对学习丰富的表示而无需显式监督,彻底改变了这一领域。 CLIP 通过双编码器架构实现这一点,该架构将图像及其对应的文本描述映射到共享的嵌入空间中,其中语义相似的对被拉近,而语义不相似的对被推开。 此方法不仅简化了数据标注,而且能够实现零样本迁移到下游任务,在图像分类(Deng et al., 2009; Recht et al., 2019) 和图像-文本检索(Young et al., 2014; Lin et al., 2014; Urbanek et al., 2024; Chen et al., 2024a) 等各种基准测试中都展现出令人印象深刻的性能。
2.2细粒度理解
尽管 CLIP 取得了成功,但在处理细粒度视觉细节方面仍然存在局限性。 其文本编码器限制为 77 个符元,限制了其处理详细和复杂描述的能力。 此外,CLIP 将整个图像与对应的文本对齐,这使得提取有价值的特定区域表示变得具有挑战性。 为了解决这些局限性,像 LongCLIP(Zhang et al., 2024) 这样的模型扩展了文本编码器的最大符元长度,使其能够处理更长、更详细的文本信息。 GLIP(Li et al., 2022) 和 RegionCLIP(Zhong et al., 2022) 引入了 grounding 数据,增强了模型将图像内的特定区域与相应文本对齐的能力,从而提高了下游检测任务的性能(Xie et al., 2018; Gupta et al., 2019; Zhou et al., 2022b; Minderer et al., 2024)。 然而,即使有了这些改进,现有模型仍然难以完全捕获和对齐不同数据集中的细粒度特征。
2.3图像-文本数据集
图像-文本数据集(Gu et al., 2022; Xie et al., 2023; Fu et al., 2024)在多模态模型的性能中起着关键作用。 现有的数据集,如LAION(Schuhmann et al., 2021, 2022)、COCO(Lin et al., 2014)、Flickr30K(Young et al., 2014)和Conceptual Captions(Sharma et al., 2018; Changpinyo et al., 2021)提供了宝贵的资源,但它们通常强调一般的场景描述,而忽略了高级应用至关重要的细粒度细节。 研究人员采用了多种策略来减轻这些限制。 一种方法是利用先进的大型多模态模型(Laurençon et al., 2024; Wang et al., 2024; Wu et al., 2024c; Chen et al., 2024b; Team et al., 2024)通过重新加注标题来细化和丰富文本描述。 例如,LongCLIP(Zhang et al., 2024)利用来自ShareGPT4V(Chen et al., 2024a)的100万对长标题图像,而FineCLIP(Jing et al., 2024)构建了一个包含250万对长标题图像的数据集。 尽管这些努力增强了数据的丰富性,但与图像-文本领域海量数据相比,它们在规模上仍然有限。 另一种策略是使用预训练的目标检测模型(Li et al., 2023b; Ma et al., 2024; Hou et al., 2024)实现伪标签管道,自动为区域框生成细粒度的伪标签,类似于Kosmos-2(Peng et al., 2024)中使用的GRIT数据集。 这些方法有助于改进区域特定对齐,但由于自动标注可能会引入噪声。
另一个重大挑战是缺乏困难的细粒度负样本。 现有数据集主要由相对容易区分的正样本组成,限制了模型学习细微变化的能力。 缺乏困难的负样本阻碍了真正的细粒度理解,因为模型难以辨别视觉和文本特征中细微但有意义的差异。 弥补这一差距对于开发能够可靠地执行细粒度识别和对齐任务的模型至关重要,从而使它们能够处理高级应用所需的细微差别。
3方法
3.1细粒度CLIP
图1概述了细粒度CLIP (FG-CLIP)。 我们提出的FG-CLIP扩展了CLIP传统的双编码器架构,以更好地捕捉图像和文本中的细粒度细节。 我们利用一个两阶段的训练范式来实现这种增强。 在第一阶段,FG-CLIP 专注于仅使用全局对比学习来对齐图像和文本的全局表示。 第二阶段在此基础上,通过引入区域对比学习和难样本细粒度负样本学习,利用区域-文本数据进一步细化模型对细粒度细节的理解。
全局对比学习。
全球对比学习旨在通过引入使用大型多模型(LMM)来增强长字标的对齐方式的方法来增强模型的细粒度理解。 此方法生成额外的长标题,提供更丰富的上下文和更细粒度的描述。 长标题的加入使模型能够感知和对齐全局级别的语义细节,从而增强细粒度理解和上下文感知能力。 此外,我们保留了短标题-图像对的比对。 长标题补充了这些短标题,确保模型能够同时学习用于复杂语义信息的详细、细致的长标题和用于基本概念的简洁、直接的短标题。 这种双重方法提高了模型在捕捉更广泛的视觉信息方面的整体性能。
在我们的框架中,短标题和长标题都通过利用从标题的文本编码器提取的 [CLS] 符元特征和从图像编码器提取的图像 [CLS] 符元特征来与图像对齐。 为了在保留短标题对齐的同时适应更长更详细的标题,扩展了 FG-CLIP 文本编码器的位置嵌入。 具体来说,对于长度小于或等于 20 个符元的序列,我们直接使用原始位置嵌入。 对于更长的序列,我们对超过 20 的位置应用系数为 4 的线性插值,将最大长度从 77 个符元扩展到 248 个符元。 此修改确保模型能够有效地处理更长、更具描述性的文本,同时保持计算效率。
在每个训练步骤中,模型都对每张图像使用短标题和长标题,以确保全面细致的理解。 给定一对图像-文本,两个编码器的输出都是嵌入向量v∈ℝd(用于图像)和t∈ℝd(用于文本),其中d是嵌入空间的维度。 我们使用余弦相似度度量来计算每一对之间的相似度:

全局对比学习的目标函数基于InfoNCE损失(He et al., 2020),它最大化匹配对之间的相似度,同时最小化不匹配对之间的相似度。 具体来说,N对图像-文本对的批次的损失由下式给出:

其中τ是一个可学习的温度参数。 这种全局对比学习显著提高了其在细粒度和整体环境下的细节感知能力。
区域对比学习。
区域对比学习专注于将图像内的特定区域与相应的文本片段对齐。 为此,我们采用RoIAlign(He et al., 2017)从图像中提取区域特定特征。 然后,通过对每个检测到的区域内的符元应用平均池化来处理这些提取的特征,从而得到一组区域嵌入{rk}k=1K。 其中K表示批次中所有图像中有效边界框的总数。 此方法不同于全局对比学习,全局对比学习通常依赖于[CLS]符元来导出图像级特征。 对于文本,我们将全图标题分割成与单个边界框相对应的短语或句子,获得文本嵌入lk。 区域对比损失定义为:

这鼓励模型学习特定区域和文本描述之间的细粒度对齐。
困难细粒度负样本学习。
为了解决缺乏具有挑战性的细粒度负样本的问题,我们引入了一种难负样本挖掘策略。 我们将难负样本定义为在语义上接近但与正样本不完全相同的样本。 这些难负样本是通过改写边界框的描述,修改某些属性以创建细微差异来构建的。 获取细粒度难负样本的具体过程可以在第3.2节中找到。
为了将难负样本纳入学习过程,我们将损失函数扩展为包含难负样本的项。 对于每个区域-文本对,我们计算区域特征与正描述和相应的负样本描述之间的相似度。 难负样本损失Lhard定义为:

其中M表示每个区域的标题总数,j=1对应于正样本,j>1对应于负样本。
在第二阶段,我们整合了所有三个组成部分:全局对比学习、区域对比学习和细粒度难负样本学习,以确保全面细致的比对任务。 第二阶段的学习目标结合了这些元素:

此处,超参数α和β分别设置为0.1和0.5,以平衡区域对比损失和难负样本损失,确保每个损失都在相似的尺度上运行。
这种集成方法确保FG-CLIP不仅能够捕捉全局语义细节,而且能够区分语义相似对之间的细微差异,从而提高其在各种下游任务中的整体性能。
3.2精选数据集
在本节中,我们描述了为我们的FG-CLIP模型精心策划数据集的细致过程,强调规模和质量,以解决现有模型在细粒度理解方面的局限性。
使用详细的重新标注增强LAION-2B数据集。
在第一阶段的训练中,我们使用了增强版的LAION-2B数据集(Schuhmann et al., 2022),其中图像使用大型多模态模型(即CogVLM2-19B(Hong et al., 2024))生成的详细描述进行了重新标注。 这种方法生成的字幕更详细,语境更丰富,对于捕捉视觉内容的细微差别至关重要。 原始的LAION-2B数据集经常存在字幕过于笼统或不精确的问题,导致在细粒度任务中的性能欠佳。 例如,鸟的图像可能被描述为“一只鸟”,而没有指明物种或环境。 这种笼统的字幕限制了模型识别细微细节的能力。
通过利用先进的大型多模态模型,我们生成详细的描述,这些描述不仅识别物体,还提供关于它们在场景中的属性、动作和关系的丰富上下文信息。 例如,与其使用像“一只鸟”这样的通用描述,我们的改进字幕则写为“一只红翅黑鹂栖息在公园里的一棵树枝上”。利用由160×910B个NPU组成的集群,数据处理在30天内完成。 第4.5节详细介绍的消融研究评估了使用这些高质量、详细字幕的影响。 结果表明,在各种任务中模型性能都有显著提高,这突显了大规模、高质量文本标注在提高模型准确性和上下文理解方面的重要作用。
细粒度视觉定位+重新标注+难例数据集 (FineHARD)。
在第二阶段,我们开发了一个名为FineHARD的高质量视觉定位数据集,其特点是精确的区域特定字幕和难例样本。 我们基于GRIT (Peng et al., 2024)图像构建整个数据集。 该过程始于使用CogVLM2-19B (Hong et al., 2024)生成详细的图像字幕,确保全面且细致的描述,捕捉每张图像的完整上下文。 遵循(Peng et al., 2024)的方法,我们然后使用SpaCy (Honnibal et al., 2020)来解析字幕并提取指代表达式。 随后,将图像和指代表达式输入到预训练的目标检测模型,即Yolo-World (Cheng et al., 2024)中,以获得相关的边界框。 应用非极大值抑制来消除重叠的边界框,只保留预测置信度得分高于0.4的边界框。 此过程产生了1200万张图像和4000万个带有细粒度区域字幕的边界框。 附录A中提供了图像及其对应标题的示例。
接下来,为了创建具有挑战性的细粒度负样本,我们在保持目标名称不变的情况下修改边界框描述的属性。 对于这项任务,我们使用一个开源大型语言模型 Llama-3.1-70B(Dubey et al., 2024),为每个正样本生成10个负样本。 为了确保清晰度,我们去除了特殊符号 例如,从生成的描述中去除分号、逗号和换行符。 对3000个负样本的质量检查显示,98.9%的样本合格,只有1.1%被认为是噪声——这一比例在无监督方法的预期容忍度范围内。 此过程生成的细微变化更能反映现实场景,在现实场景中,对象可能看起来相似,但在特定细节上有所不同。 我们在附录B中展示了细粒度负样本的示例。
最终数据集包含1200万张带有细粒度标题的图像、4000万个带有详细区域描述的边界框和1000万个困难负样本。 数据管道利用一个包含160×910B个NPUs的集群,需要7天才能完成。 这个综合数据集增强了模型捕获细粒度细节的能力,并为训练FG-CLIP以区分视觉和文本特征的细微差异提供了坚实的基础。
4实验
4.1实现细节
在第一阶段,我们使用一个包含16亿张图像的数据集进行训练,每张图像都配有短文本和长文本。 模型使用原始CLIP(Radford et al., 2021)的权重进行初始化。 对于ViT-B和ViT-L(Dosovitskiy, 2021) 配置中,每个NPU的批量大小设置为384。 可学习温度参数τ初始化为0.07。 我们使用 均采用AdamW优化器,学习率为1e-4,权重衰减为0.05,β1为0.9,β2为0.98,并在前200次迭代中进行预热步骤for。 整个训练过程采用DeepSpeed的Zero-2优化技术和Bfloat16精度来加速训练,模型训练一个epoch。
表1:R FG-OVD基准测试结果。 准确率报告如下:.
| Method | Backbone | Fine-Grained Understanding | |||
|---|---|---|---|---|---|
| hard | medium | easy | trivial | ||
| CLIP | ViT-B/16 | 12.0 | 23.1 | 22.2 | 58.5 |
| EVA-CLIP | ViT-B/16 | 14.0 | 30.1 | 29.4 | 58.3 |
| Long-CLIP | ViT-B/16 | 9.2 | 18.4 | 16.2 | 51.8 |
| FineCLIP | ViT-B/16 | 26.8 | 49.8 | 50.4 | 71.9 |
| FG-CLIP | ViT-B/16 | 46.1 | 66.6 | 68.7 | 83.4 |
| CLIP | ViT-L/14 | 15.4 | 25.3 | 25.7 | 38.8 |
| EVA-CLIP | ViT-L/14 | 18.3 | 38.4 | 35.2 | 62.7 |
| Long-CLIP | ViT-L/14 | 9.6 | 19.7 | 16.0 | 39.8 |
| FineCLIP | ViT-L/14 | 22.8 | 46.0 | 46.0 | 73.6 |
| FG-CLIP | ViT-L/14 | 48.4 | 69.5 | 71.2 | 89.7 |
表2: 边界框分类结果。
| Method | Backbone | BBox Classification | ||
|---|---|---|---|---|
| COCO | LVIS | Open Images | ||
| CLIP | ViT-B/16 | 44.2 | 20.9 | 15.3 |
| EVA-CLIP | ViT-B/16 | 30.6 | 14.4 | 8.8 |
| RegionCLIP | ViT-B/16 | 40.0 | 22.2 | 19.1 |
| CLIPSelf | ViT-B/16 | 43.7 | 7.8 | 11.4 |
| Long-CLIP | ViT-B/16 | 36.7 | 18.2 | 14.9 |
| FineCLIP | ViT-B/16 | 48.4 | 23.3 | 18.1 |
| FG-CLIP | ViT-B/16 | 52.3 | 28.6 | 20.6 |
| CLIP | ViT-L/14 | 33.8 | 9.3 | 8.3 |
| EVA-CLIP | ViT-L/14 | 32.1 | 18.3 | 9.3 |
| Long-CLIP | ViT-L/14 | 35.6 | 10.4 | 8.9 |
| FineCLIP | ViT-L/14 | 54.5 | 22.5 | 19.1 |
| FG-CLIP | ViT-L/14 | 63.2 | 38.3 | 23.8 |
在第二阶段,我们使用一个包含 1200万张图像。 除长短标题外,该数据集还包括高质量的视觉定位标注和困难的细粒度负样本。 模型使用第一阶段获得的权重进行初始化。 每个GPU的批量大小设置为512。 我们采用ADAMW优化器的学习率为1E-6,重量衰减为0.001,β1 0.9,β2 0.98,而热身步骤 前50个迭代。 训练加速技术包括DeepSpeed的Zero-2优化、CUDA的TF32技术和Bfloat16精度,模型训练一个epoch。
4.2对细粒区域级任务进行比较
In this section, the primary methods included for comparison are CLIP (Radford et al., 2021), EVA-CLIP (Sun et al., 2023), Long-CLIP (Zhang et al., 2024), and FineCLIP (Jing et al., 2024). Additional methods involved in open-vocabulary detection include OV-RCNN (Zareian et al., 2021), RegionCLIP (Zhong et al., 2022), Detic (Zhou et al., 2022b), VLDet (Lin et al., 2022), RO-ViT (Kim et al., 2023b), CFM-ViT (Kim et al., 2023a), F-ViT(Wu et al., 2024a), and CLIPSelf (Wu et al., 2024a).
细粒度的理解。
表3:在开放式摄制对象检测任务上的性能。
| Method | Backbone | OV-COCO | ||
|---|---|---|---|---|
| AP50novel | AP50base | AP50all | ||
| OV-RCNN | RN50 | 17.5 | 41.0 | 34.9 |
| RegionCLIP | RN50 | 26.8 | 54.8 | 47.5 |
| Detic | RN50 | 27.8 | 51.1 | 45.0 |
| VLDet | RN50 | 32.0 | 50.6 | 45.8 |
| RO-ViT | ViT-B/16 | 30.2 | - | 41.5 |
| RO-ViT | ViT-L/16 | 33.0 | - | 47.7 |
| CFM-ViT | ViT-L/16 | 34.1 | - | 46.0 |
| F-ViT | ViT-B/16 | 17.5 | 41.0 | 34.9 |
| F-ViT+CLIPSelf | ViT-B/16 | 33.6 | 54.2 | 48.8 |
| F-ViT+FineCLIP | ViT-B/16 | 29.8 | 45.9 | 41.7 |
| F-ViT+FG-CLIP | ViT-B/16 | 35.1 | 51.7 | 47.4 |
| F-ViT | ViT-L/14 | 24.7 | 53.6 | 46.0 |
| F-ViT+CLIPSelf | ViT-L/14 | 38.4 | 60.6 | 54.8 |
| F-ViT+FineCLIP | ViT-L/14 | 40.0 | 57.2 | 52.7 |
| F-ViT+FG-CLIP | ViT-L/14 | 41.2 | 58.0 | 53.6 |
表4:对图像级任务的比较,包括长/短字幕图像文本检索和零照片的图像分类。
| Method | Backbone | ShareGPT4V | DCI | MSCOCO | Flickr30k | ImageNet-1K | ImageNet-v2 | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| I2T | T2I | I2T | T2I | I2T | T2I | I2T | T2I | Top-1 | Top-1 | ||
| CLIP | ViT-B/16 | 78.2 | 79.6 | 45.5 | 43.0 | 51.8 | 32.7 | 82.2 | 62.1 | 68.4 | 61.9 |
| EVA-CLIP | ViT-B/16 | 90.5 | 85.5 | 41.9 | 41.2 | 58.7 | 41.6 | 85.7 | 71.2 | 74.7 | 67.0 |
| Long-CLIP | ViT-B/16 | 94.7 | 93.4 | 51.7 | 57.3 | 57.6 | 40.4 | 85.9 | 70.7 | 66.8 | 61.2 |
| FineCLIP | ViT-B/16 | 70.6 | 73.3 | 35.5 | 34.4 | 54.5 | 40.2 | 82.5 | 67.9 | 55.7 | 48.8 |
| FG-CLIP | ViT-B/16 | 96.7 | 94.9 | 61.8 | 60.6 | 64.1 | 45.4 | 90.7 | 76.4 | 69.0 | 61.8 |
| CLIP | ViT-L/14 | 86.5 | 83.6 | 37.2 | 36.4 | 58.0 | 37.1 | 87.4 | 67.3 | 76.6 | 70.9 |
| EVA-CLIP | ViT-L/14 | 91.5 | 89.4 | 47.2 | 47.8 | 64.2 | 47.9 | 89.2 | 77.9 | 80.4 | 73.8 |
| Long-CLIP | ViT-L/14 | 95.8 | 95.6 | 44.2 | 52.5 | 62.8 | 46.3 | 90.0 | 76.2 | 73.5 | 67.9 |
| FineCLIP | ViT-L/14 | 73.4 | 82.7 | 40.1 | 46.2 | - | - | - | - | 60.8 | 53.4 |
| FG-CLIP | ViT-L/14 | 97.4 | 96.8 | 66.7 | 66.1 | 68.9 | 50.9 | 93.7 | 81.5 | 76.1 | 69.0 |
基于(Bianchi等人,2024)构建的细粒基准FG-OVD ,我们评估了开源图像文本对齐模型。 与以前的基准(例如MSCOCO (Lin等人,2014年)和Flickr (Young等人,2014年) ,这些基准依靠全局信息进行匹配,此基准的重点是识别图像中特定的特定本地区域。 每个区域都有一个相应的阳性描述和十个负面描述,负样本源自正文。 该基准主要包括四个不同的难度水平的子集:硬,中等,易于和琐碎。 这些子集的难度增加反映在要匹配的文本之间的区别。 在硬,中和简单的子集中,一个,两个和三个属性单词分别被替换。 在微不足道的子集中,文本完全无关。 有关特定属性单词的源收集,请参阅(Bianchi等人,2024)。
在测试过程中,按照FineClip,我们首先通过删除(Zhou等人,2022a)的最后一个自我发项层来提取模型的致密特征。 随后,我们将基准标准提供的边界框信息与Roialign相结合以获得代表性特征。 这些特征用于计算具有正样品描述和负样本描述的相似性得分。 TOP-1精度被用作评估指标。
如表1所示,FG-CLIP比现有模型(尤其是在具有挑战性的硬质和中产阶级)中实现了重大改进,这要归功于其硬细粒的负面样品学习策略。 不同模型性能的示例可以在附录D.1中找到。
边界框分类。
To assess the model’s local information recognition capabilities, we conduct zero-shot testing on COCO-val2017 (Lin et al., 2014), LVIS (Gupta et al., 2019), and Open Images (Kuznetsova et al., 2020), following the protocol of (Jing et al., 2024). 该评估的重点是模型只能使用文本描述在边界框中对对象进行分类。 与细粒度的理解类似,我们将基准中的已知边界框信息与Roialign集成在一起,以获得局部密集表示。 使用所有类别作为文本输入,我们对每个边界框执行匹配和识别,以评估TOP-1的精度。
如表2所示,FG-CLIP借助区域对比度学习策略在边界框分类中实现了领先的性能。 值得注意的是,使用长文本从剪辑中微调的长卷(Zhang等人,2024)显示出绩效的显着下降,表明长文本会影响区域信息粒度。 此外,FineClip使用区域对齐数据并结合了实时自我验证方案,从而导致有意义的改进。 尽管FineClip取得了重大进展,但FG-CLIP通过整合区域和全球信息来擅长它。 这种方法增强了FG-CLIP准确识别和分类图像中区域的能力,突出了FG-CLIP训练策略的有效性。
开放式摄制对象检测。
为了进一步评估我们方法的细颗粒定位能力,我们采用FGL-CLIP作为下游开放式视频检测任务的骨架。 在先前的工作(Wu等人,2024a)之后,我们使用冷冻的视觉编码器采用了两阶段的检测架构F-Vit。 比较结果总结在表3中。 Consistent with previous studies, we report the box AP at IoU 0.5 for base, novel, and all categories (AP50novel, AP50base, and AP50all) on OV-COCO. 值得注意的是,AP50novel是感兴趣的主要重点,因为它衡量了模型识别新物体的能力。 我们的发现表明,FG-CLIP在开放式检测任务中取得了领先的表现,突出了其在识别和本地化新颖对象方面的有效性。
4.3图像级任务上的比较
长/短标题图像文本检索。
为了全面评估检索性能,我们对长标题和简短标题图像文本检索任务进行实验。 对于长篇文本检索,我们遵循长案的协议,并使用ShareGpt4v 的1K子集(Chen等人,2024a)作为测试集。 此外,我们将来自DCI (Urbanek等人,2024年)的更具挑战性的长字幕图像文本对数据集纳入了评估。 对于短文本检索,我们采用经典的MSCOCO 5K (Lin等人,2014年)和Flickr 1K (Young等人,2014年)评估集,它们是广泛使用的基准,用于评估Image-Text Alignment模型。 如表4所示,FG-CLIP在长/短标题图像 - 文本检索任务中均可取得显着的性能改进。 该模型处理多种字幕长度的能力突出了其在多模式对齐中的多功能性和鲁棒性。
表5:对一般多模式基准的比较。
| Method | GQA | POPE | RefCOCO | ||
|---|---|---|---|---|---|
| val | testA | testB | |||
| LLaVA-v1.5+CLIP | 61.9 | 85.9 | 76.2 | 83.4 | 67.9 |
| +1.0 | +0.9 | +5.2 | +3.1 | +7.0 | |
| LLaVA-v1.5+FG-CLIP | 62.9 | 86.8 | 81.4 | 86.5 | 74.9 |
表6:消融研究结果是FG-CLIP。 该表比较了我们的FG-CLIP模型在多个评估指标中的不同配置的性能,包括长字幕图像式检索(DCI),简短的标题图像映射检索(MSCOCO)(MSCOCO),边界框分类(Coco-Val2017)和良好的理解(FG-ovd)。 结果突出了通过纳入全球对比度学习(Lglobal),区域对比度学习(Lregional)和硬细粒的负面样本学习(Lhard)来实现的增量改进。
| Method | Long Retrieval | Short Retrieval | BBox Classification | Fine-Grained Understanding | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| I2T | T2I | I2T | T2I | Top-1 | Top-5 | hard | medium | easy | ||
| CLIP | 45.5 | 43.0 | 51.8 | 32.7 | 44.2 | 72.3 | 12.0 | 23.1 | 22.2 | |
| FG-CLIP Stage1 | 58.3 | 57.5 | 64.6 | 44.9 | 47.2 | 74.2 | 21.8 | 41.6 | 36.2 | |
| +Stage2 (Lglobal) | 62.7 | 61.2 | 64.4 | 46.4 | 46.8 | 73.6 | 25.4 | 46.8 | 42.9 | |
| +Stage2 (Lglobal,Lregional) | 62.4 | 61.1 | 64.7 | 45.7 | 53.7 | 81.2 | 24.5 | 47.1 | 49.5 | |
| +Stage2 (Lglobal,Lregional,Lhard) | 61.8 | 60.6 | 64.1 | 45.4 | 52.3 | 79.7 | 46.1 | 66.6 | 68.7 |
零击图像分类。
我们评估了模型在ImagEnet-1K (Deng等人,2009)和Imagenet-V2 (Recht等人,2019)上的零摄像分类性能。 如表4所示,尽管在较大的数据集中受过培训的EVA-CLIP略有落后,但FG-CLIP与原始基线相比,具有增强的区域和文本理解能力,表现出稳定的分类性能。 此外,与长剪辑和罚款相比,这两者都旨在增强细粒度的识别能力,我们的模型在分类准确性方面具有显着优势。
4.4对一般多模式基准的比较
我们将FG-CLIP作为多模式大语言模型的视觉特征提取器与基线夹进行比较。 具体而言,我们使用llava-v1.5-7b (liu等人,2023b)进行实验,该实验本身是使用夹子训练的。 为了确保公平的比较,所有参数配置都与原始LLAVA中的参数配置保持一致,并使用LLAVA提供的数据训练该模型。 我们的评估重点是与属性分析,对象定位和输出幻觉相关的基准集,该基准集为GQA (Hudson&Manning,2019),Refcoco (Kazemzadeh等人,2014年,2014年),以及Pope (Li li等人,2023c)c)
如表5所示,FG-CLIP在GQA上实现了某些改进,这涉及基于属性的问题答案,以及对评估输出幻觉的教皇。 此外,它证明了Refcoco的显着增长,Refcoco是一个涉及属性分析和对象定位的基准集。 这些结果表明FG-CLIP的训练策略和数据构建的有效性,这些策略和构建专门设计用于增强细粒度识别和区域对齐。 我们在D.3节提供了更多结果。
4.5消融研究
为了系统地评估FG-CLIP模型中不同组件的贡献,我们进行了消融研究,结果总结在表6中。
全局对比学习和详细的图像描述数据。
我们首先将原始CLIP模型与结合了全局对比学习的FG-CLIP第一阶段和第二阶段进行比较。Lglobal 结果表明,生成详细的图像描述显著提高了各种任务的性能。 具体而言,FG-CLIP第一阶段在所有指标上均优于CLIP,突出了细粒度训练数据的重要性。 在第二阶段添加Lglobal后,观察到进一步的改进,尤其是在长描述图像文本检索(DCI (Urbanek et al., 2024))和细粒度理解(FG-OVD (Bianchi et al., 2024))方面。 这强调了详细的图像描述数据与全局对比学习相结合在提高模型性能方面的有效性。
区域对比学习。
我们引入区域对比学习Lregional来评估其对捕获详细图像区域的影响。 与仅使用Lglobal的配置相比,添加Lregional导致边界框分类准确率从46.8%提高到53.7%,FG-OVD简单数据集准确率从42.9%提高到49.5%。 这些改进突出了Lregional在提高模型理解特定图像区域内细粒度细节的能力方面的有效性。 此外,该组件在检索和分类任务中都保持了强大的性能,证明了其多功能性。
难例细粒度负样本学习。
我们结合了细粒度难例负样本学习Lhard来区分语义相似但不同的区域-文本对之间的细微差别。 通过比较有和没有Lhard的配置,我们观察到 FG-OVD 性能的显著改进。 在困难数据集上的准确率从 24.5% 提高到 46.1%,中等数据集上的准确率从 47.1% 提高到 66.6%,简单数据集上的准确率从 49.5% 提高到 68.7%。 这些结果强调了Lhard在区分细微语义差异方面的重要性。 细粒度难例负样本学习有效地解决了具有挑战性的案例,从而增强了模型的稳定性和判别能力。
5结论
在这项工作中,我们介绍了细粒度 CLIP (FG-CLIP),这是一种新颖的方法,它显著地促进了细粒度理解。 通过将先进的对齐技术与大规模、高质量的数据集和难例负样本相结合,FG-CLIP 能够捕获全局和区域级别的语义细节,并更有效地区分细微的差异。 在各种下游任务上的大量实验验证了该模型的优越性能。 此外,我们提出了 FineHARD 作为统一数据集,它结合了高质量的区域特定标注和具有挑战性的细粒度负样本,为推进多模态研究提供了宝贵的资源。 展望未来,探索整合更复杂的多种模式模型和扩展数据集多样性对于突破细粒度理解的界限至关重要。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)