多模态大语言模型arxiv论文略读(七十二)
➡️ 论文标题:DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models➡️ 论文作者:Linli Yao, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, Lu Hou➡️ 研究机构: 北京大学、香港大学

Visual Perception by Large Language Model’s Weights
➡️ 论文标题:Visual Perception by Large Language Model’s Weights
➡️ 论文作者:Feipeng Ma, Hongwei Xue, Guangting Wang, Yizhou Zhou, Fengyun Rao, Shilin Yan, Yueyi Zhang, Siying Wu, Mike Zheng Shou, Xiaoyan Sun
➡️ 研究机构: 中国科学技术大学、腾讯微信、新加坡国立大学、复旦大学、合肥综合性国家科学中心人工智能研究所
➡️ 问题背景:现有的多模态大语言模型(MLLMs)通过将视觉特征与大语言模型(LLMs)的输入空间对齐,将视觉信息与文本信息结合,形成统一的序列输入。尽管这些方法在各种视觉-语言任务中表现出色,但因视觉令牌的引入导致了训练和推理过程中的高计算成本。特别是,当处理高分辨率图像或多图像时,视觉令牌的数量急剧增加,进一步加剧了计算效率的问题。
➡️ 研究动机:为了解决现有MLLMs在处理视觉信息时的计算效率问题,研究团队探索了一种新的参数空间对齐范式,即通过将视觉信息表示为模型权重,而非额外的视觉令牌,来提高MLLMs的效率。这种方法旨在减少输入序列的长度,从而显著提高模型的训练和推理效率。
➡️ 方法简介:研究团队提出了VLoRA,这是一种基于感知权重生成器的方法,用于将视觉特征转换为低秩感知权重,并将其与LLMs的权重合并。通过这种方式,视觉信息以权重的形式直接融入LLMs,避免了在输入中引入额外的视觉令牌,从而提高了计算效率。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括MMBench、ScienceQA、HallusionBench和MMMU等,以评估VLoRA在不同任务上的性能。实验结果表明,VLoRA在保持与现有最先进MLLMs相当性能的同时,显著降低了计算成本。
Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character
➡️ 论文标题:Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character
➡️ 论文作者:Siyuan Ma, Weidi Luo, Yu Wang, Xiaogeng Liu
➡️ 研究机构: University of Wisconsin–Madison、The Ohio State University、Peking University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在实现高度泛化的视觉-语言推理能力方面取得了显著进展。然而,确保这些模型生成的内容不包含有害信息(如暴力、歧视、虚假信息或不道德内容)变得至关重要。因此,研究多模态模型的安全性,特别是通过探索攻击方法来发现其漏洞,变得越来越重要。结构化越狱攻击(Jailbreak Attacks)通过精心设计的输入误导MLLMs,使其生成有害内容。然而,现有的结构化越狱方法在有效性和泛化能力上存在不足。
➡️ 研究动机:现有的结构化越狱方法主要集中在将恶意内容转换为图像格式,如通过排版将有害内容转换为图像,这种方法缺乏足够的越狱效果和泛化能力。为了克服这些限制,研究团队引入了“角色扮演”(Role-play)的概念,提出了一种新的有效方法——视觉角色扮演(Visual Role-play, VRP)。VRP通过生成高风险角色的详细描述并创建相应的图像,结合良性的角色扮演指令文本,有效地误导MLLMs生成有害内容。
➡️ 方法简介:VRP方法包括五个步骤:1) 通过大型语言模型(LLM)生成高风险角色的描述;2) 使用角色描述生成角色图像;3) 生成问题的排版图像;4) 将角色描述、角色图像和问题排版图像拼接成完整的恶意图像输入;5) 将恶意图像输入与良性的角色扮演指令文本配对,攻击MLLMs。通过这种方式,VRP能够有效地误导MLLMs生成有害内容,同时展示了强大的泛化能力。
➡️ 实验设计:研究团队在两个广泛使用的越狱攻击基准数据集RedTeam-2K和HarmBench上进行了实验。实验评估了VRP在不同模型上的攻击成功率(ASR),并与最强的基线方法Query Relevant和FigStep进行了比较。实验结果表明,VRP在所有模型上的平均ASR比最强基线方法高14.3%。此外,研究团队还通过消融研究探讨了不同图像组件的重要性,并评估了VRP对两种不同防御方法的鲁棒性。
Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models
➡️ 论文标题:Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models
➡️ 论文作者:Xijie Huang, Xinyuan Wang, Hantao Zhang, Yinghao Zhu, Jiawen Xi, Jingkun An, Hao Wang, Hao Liang, Chengwei Pan
➡️ 研究机构: Beihang University, University of Science and Technology of China, Peking University
➡️ 问题背景:尽管大型语言模型(LLMs)的安全问题已得到广泛研究,但多模态大型语言模型(MLLMs),特别是在医疗领域的应用(MedMLLMs),的安全性仍存在不足。这些模型在临床环境中用于复杂的医疗挑战时,其准确性和相关性至关重要。然而,研究发现,通过结合现有的临床医疗数据与不寻常的自然现象,可以定义并实施不匹配的恶意攻击(2M-attack)及其优化版本(O2M-attack),这些攻击能够显著影响MedMLLMs的性能。
➡️ 研究动机:现有的研究主要集中在LLMs的安全性上,而对MedMLLMs的安全性研究相对较少。为了填补这一空白,研究团队通过构建3MAD数据集,全面分析了MedMLLMs在面对2M-attack和O2M-attack时的脆弱性,并提出了一种多模态交叉优化方法(MCM),以提高攻击成功率。研究旨在揭示MedMLLMs的安全漏洞,并为未来的安全防护提供方法和见解。
➡️ 方法简介:研究团队构建了3MAD数据集,该数据集涵盖了多种医疗影像模态和有害医疗场景,用于评估MedMLLMs在面对不匹配和恶意攻击时的脆弱性。MCM方法通过迭代优化图像和文本输入,以最小化损失函数,生成最有效的对抗样本。该方法在图像和文本优化过程中分别采用了梯度下降和梯度选择策略。
➡️ 实验设计:实验在3MAD-Tiny-1K数据集上进行了10次迭代攻击,针对LLaVA-Med模型进行了白盒攻击,并将生成的对抗样本用于对其他四个开源多模态医疗模型(CheXagent、XrayGLM、Med-Flamingo、RadFM)的黑盒攻击。实验评估了攻击成功率(ASR)和拒绝率(RR),并使用多种相似性度量(如密集相似性、词汇相似性和多向量相似性)来评估模型的鲁棒性和安全性。
Ovis: Structural Embedding Alignment for Multimodal Large Language Model
➡️ 论文标题:Ovis: Structural Embedding Alignment for Multimodal Large Language Model
➡️ 论文作者:Shiyin Lu, Yang Li, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Han-Jia Ye
➡️ 研究机构: AI Business, Alibaba Group、School of Artificial Intelligence, Nanjing University、National Key Laboratory for Novel Software Technology, Nanjing University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)通常通过连接器(如MLP)将预训练的语言模型(LLM)与预训练的视觉变换器(Vision Transformer)结合,以赋予LLM视觉能力。然而,这种结合方式存在视觉和文本嵌入策略不一致的问题,即文本嵌入基于嵌入查找表,而视觉嵌入由视觉编码器直接生成,这导致了视觉和文本信息融合的挑战。
➡️ 研究动机:现有的MLLMs在视觉和文本嵌入策略上的不一致可能导致模型性能的局限性。为了进一步提升MLLMs的性能,研究团队提出了一种新的MLLM架构——Ovis,旨在通过引入可学习的视觉嵌入查找表,使视觉嵌入策略与文本嵌入策略相匹配,从而实现更有效的视觉和文本信息融合。
➡️ 方法简介:Ovis通过在视觉编码器的处理过程中引入一个额外的可学习视觉嵌入查找表,将每个图像块映射到视觉嵌入查找表多次,最终生成的视觉嵌入是这些索引嵌入的加权组合。这种方法模仿了文本嵌入的生成方式,确保了视觉和文本嵌入策略的一致性。此外,Ovis通过联合文本生成损失进行优化,避免了因缺乏文本指导而导致的视觉-语言任务性能下降。
➡️ 实验设计:研究团队在多个公开的多模态基准数据集上对Ovis进行了评估,包括MMStar、MMBench-EN、MMBench-CN、MMMU-Val、MMMU-Test、MathVista-Mini、MME、HallusionBench和RealWorldQA。实验结果表明,Ovis在相同参数规模下优于开源的MLLMs,并且在大多数基准测试中,Ovis-14B的性能甚至超过了高资源的专有模型Qwen-VL-Plus。
DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models
➡️ 论文标题:DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models
➡️ 论文作者:Linli Yao, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, Lu Hou
➡️ 研究机构: 北京大学、香港大学、华为诺亚方舟实验室
➡️ 问题背景:多模态大语言模型(MLLMs)通过视觉投影器(Visual Projector)将视觉和语言模态连接起来,实现跨模态对齐。然而,目前对投影器在视觉-语言对齐中的有效性研究不足,只能通过MLLMs在下游任务中的表现来推断。研究发现,压缩型投影器(如QFormer)在抽象视觉语义时会导致视觉语义的损失,如细粒度属性和空间局部性的丢失。
➡️ 研究动机:为了深入理解现有投影器对视觉-语言语义对齐的影响,并探索其背后的机制,研究团队通过分析生成文本与原始视觉补丁及中间投影输出之间的相关性,揭示了“双重抽象”现象。这一现象导致了视觉语义的累积损失和训练复杂度的增加。基于此,研究团队提出了“解耦压缩与抽象(DeCo)”的方法,旨在简化训练过程并保留更多的视觉上下文。
➡️ 方法简介:研究团队提出了一种新的分析工具R-GAE,用于解剖MLLMs中投影器学习的视觉语义。通过R-GAE,研究团队将整体的文本到补丁(Text-to-Patch)语义相关性分解为文本到查询(Text-to-Query)和查询到补丁(Query-to-Patch)两个子流。研究发现,压缩型投影器在抽象视觉语义时会导致视觉语义的损失,而非压缩型投影器则能更好地保留视觉语义。基于这些发现,研究团队提出了DeCo方法,通过在补丁级别压缩视觉令牌数量,并让LLM独立处理视觉语义抽象,从而解耦压缩与抽象。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括视觉定位(Visual Localization)和开放性视觉问答(Open-ended VQA)任务。实验比较了不同压缩型投影器在相同设置下的表现,验证了DeCo框架的有效性和效率。实验结果表明,DeCo在多个基准测试中显著提升了MLLMs的性能,尤其是在空间理解能力方面表现出色,并且在不同的视觉骨干、图像分辨率和LLM配置下具有较强的鲁棒性。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)