一文看懂多模态大语言模型CLIP架构!

人工智能培训

714人浏览 · 2025-08-06 18:38:59

人工智能培训 · 2025-08-06 18:38:59 发布

1. CLIP：对比语言 - 图像预训练

CLIP 由 OpenAI 于 2021 年推出，是一种开创性模型，能够将图像和文本表示对齐到共享嵌入空间中。与依赖特定任务标记数据集的传统监督学习方法不同，CLIP 采用对比学习目标，在无需针对特定任务进行微调的情况下，能够广泛泛化到多种任务中。

1.1 CLIP 架构

CLIP 由以下两个核心组件构成：

→图像编码器：通常采用 Vision Transformer（ViT）或类似 ResNet 的卷积神经网络，将图像转化为固定长度的向量嵌入。

→文本编码器：基于 Transformer 的语言模型（与 BERT 或 GPT 架构相似），把文本描述编码为与图像嵌入维度相同的向量嵌入。

这两个编码器协同工作，将图像和文本映射到共享潜在空间。在此空间中，语义相关的图像 - 文本对（如狗的图像与 “一张狗的照片” 这一标题）彼此靠近，而语义不相关的对则相距较远。

1.2 CLIP 训练目标

CLIP 在约 4 亿个从网络爬取的图像 - 文本对上进行训练。训练过程采用受 InfoNCE（噪声对比估计）启发的对比损失函数。对于包含 N 个图像 - 文本对的批次：

→计算所有 N×N 种图像和文本嵌入组合的余弦相似度。

→目标是最大化 N 个正确（匹配）对的相似度，同时最小化 N²−N 个错误（不匹配）对的相似度。

→通过优化相似度分数上的对称交叉熵损失实现。

同样计算文本到图像方向的损失，总损失为两者的平均值。

其中，控制分布软硬度的温度参数。这种对称形式确保图像和文本两种模态的表示能有效对齐。

1.3 CLIP 的零样本学习能力

CLIP 的优势在于其零样本学习能力。预训练后，它能够通过构建提示（例如 “一张 [类别] 的照片”）并比较图像嵌入与可能类别的文本嵌入，执行图像分类等任务，而无需特定任务的训练数据。

零样本 CLIP 在应对分布偏移时，比标准 ImageNet 模型具有更强的鲁棒性。左图展示了理想鲁棒模型（虚线）在 ImageNet 分布和其他自然图像分布上的表现一致。零样本 CLIP 模型将这种 “鲁棒性差距” 缩小了高达 75%。图中显示了对 logits 转换值的线性拟合以及基于自助法估计的 95% 置信区间。右图则可视化了香蕉类别的分布偏移情况，该类别在 7 个自然分布偏移数据集中有 5 个共享。最佳零样本 CLIP 模型（ViT-L/14@336px）的表现与在 ImageNet 验证集上表现相同的 ResNet-101 模型进行了对比。（来源：OpenAI）

更多课程内容可以听取工信部电子标准院《人工智能大模型应用工程师》课程获得详解。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r