多模态大型语言模型，最新综述！

这项综述制了 MLLM 不断发展的格局，研究了transformer、扩散模型、SSL、MoE、RLHF 和 CoT 等基础技术如何扩展到不同的输出模式。虽然每种模式都带来了不同的挑战，但它们越来越多地共享底层架构和学习策略，这表明正在向通用生成系统趋同。一个关键的见解是方法论跨领域的高度可转移性。一种模式的进步，例如扩散模型在图像生成方面的成功，已经促进了其他模式的突破，包括视频合成和 3D 建

AIGC莹子

1233人浏览 · 2025-06-27 11:32:34

AIGC莹子 · 2025-06-27 11:32:34 发布

多模态大型语言模型（Multimodal Large Language Models，MLLMs）已迅速发展，超越了文本生成的范畴，如今能够覆盖图像、音乐、视频、人类动作以及三维物体等多种输出模态。它们通过在统一架构下将语言与其他感知模态整合，实现了跨模态的生成能力。

本文综述将六大主要生成模态进行分类，并探讨了若干核心技术——包括自监督学习（Self-Supervised Learning, SSL）、专家混合机制（Mixture of Experts, MoE）、基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）以及思维链提示（Chain-of-Thought, CoT）——如何赋能跨模态能力。我们分析了关键模型、架构趋势及其涌现的跨模态协同效应，并重点指出了可迁移的技术路径与尚未解决的挑战。诸如 Transformer 和扩散模型等架构创新为这种融合奠定了基础，使得跨模态迁移与模块化专精成为可能。

本文还总结了跨模态协同的最新发展趋势，并指出了评估方式、模块化设计及结构化推理等方面的开放性难题。该综述旨在提供一个关于 MLLM 发展的统一视角，并指明实现更通用、可适应、可解释的多模态系统的关键路径。

1 引言

自 2022 年底首次亮相以来，基于文本的大型语言模型（Large Language Models，LLMs）已成为人工智能领域的基础支柱。这些模型不仅重塑了人工智能的格局，也深刻融入了我们的日常生活。它们的演进推动了自然语言处理、人机交互以及多模态应用等方面的创新，为各个领域的无缝集成铺平了道路。随着发展，LLMs 已从最初的简单文本生成模型，演进为支持上下文学习（in-context learning）【16, 109, 149, 51】、指令跟随（instruction following）【110, 147, 146】以及多步推理（multi-step reasoning）【33】的复杂系统，正在重塑我们与计算机交互、完成任务和创造数字内容的方式。

然而，智能并不局限于语言本身。人类通过丰富的模态——文本、视觉、音频、动作等——来感知和理解世界。硬件的进步使得机器具备了处理、解释和生成这些多样化数据流的能力。这一技术趋势正推动研究社区迈向更加整体化的多模态方法，促使人工智能与人类复杂的感知方式更紧密对齐。因此，先进模型不仅擅长理解和生成文本，还能将文本与视觉结合【123】，或与音频整合【40】。这种演进也体现在输出形式上，它们正日益呈现出多模态和通用化的特征，突破了传统单一模态的响应模式。如今的模型常常以混合类型的数据作为输入【109, 147】，这一多模态集成正在推动人工智能系统逐步理解现实世界的复杂性【1】，不断逼近人类通用理解的能力。

虽然文本依然是这些模型处理的核心要素，但其生成能力已扩展至多个输出模态。为更好地理解这种多样性，本文提出了一个全新的分类方式，将多模态大型语言模型（Multimodal Large Language Models，MLLMs）的主要生成输出划分为六大关键类别：

文本生成文本（Text-to-Text, T2T）：为所有语言类任务及自然语言处理的基础，支撑着信息检索、摘要生成、翻译与对话系统。
文本生成图像（Text-to-Image, T2I）：用于视觉内容的生成与分析，是各类视觉生成任务的核心。
文本生成音乐（Text-to-Music, T2M）：音乐是一种复杂的听觉媒介，包含多种乐器与情感表达，其建模难度高于一般音频。
文本生成视频（Text-to-Video, T2V）：结合时间与视觉信息以生成动态场景，涉及现实物理规律，类似一个世界模型。
文本生成人类动作（Text-to-Human-Motion, T2HM）：广泛应用于动画、机器人与虚拟人等场景，是实现直观人机交互的重要方式。
文本生成三维物体（Text-to-3D-Objects, T2-3D）：对虚拟现实、游戏与设计等应用至关重要，有助于在沉浸式环境中实现想象与交互。

这六大类别代表了当前生成模型所涉及的主要模态，每种模态对应一种独特的数据输出形式与应用场景。本文将音乐单独归为 Text-to-Music（T2M），而非更广义的 Text-to-Audio，这是因为语音与文本关系密切，本质上是一种可直接相互转换的形式；而音乐则拥有与语言截然不同的结构、节奏、和声与创作元素，建模复杂性更高，因此值得单独对待。通过明确划分这些能力，我们希望强调生成模型所能覆盖的广泛输出范式，每种模式既有独特的应用场景，也伴随着专属的技术挑战。

支撑这些多模态生成能力的，是一系列基础性的架构创新，主要包括 Transformer【152】及其核心的注意力机制【5】，以及在众多视觉生成任务中表现突出的扩散模型（diffusion models）【106】。随着模态复杂度的不断提升，人工智能系统所需应对的问题日益复杂，模型结构与训练方法也在不断演进。这种演进往往是解锁模型涌现能力的关键【165】。其中有四项技术在提升模型推理能力方面起到了决定性作用：三项主要用于训练阶段，分别是自监督学习（Self-Supervised Learning，SSL）【121】、专家混合机制（Mixture of Experts，MoE）【62】以及基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）【26】；第四项是用于推理阶段的思维链提示（Chain-of-Thought，CoT）【164】。

自监督学习（SSL）：在训练阶段使模型从海量未标注数据中学习，通过预测输入中被遮蔽的信息，建立起对语言、模式与世界知识的基础理解，为复杂推理提供必需支持。
专家混合机制（MoE）：通过选择性激活不同“专家”子网络，以较低的计算开销显著提升模型容量，能更高效地学习多样知识与复杂模式，是增强高级推理能力的关键手段。
基于人类反馈的强化学习（RLHF）：一种训练阶段的微调方法，使模型更符合人类偏好与行为预期。通过人类排名数据训练，RLHF 能提升模型输出的一致性、可靠性与指令理解能力。
思维链提示（CoT）：在推理阶段引导模型生成一系列中间步骤，以增强多步推理能力。这种显式的思维过程有助于更准确且透明地处理复杂问题。

已有的综述文献也为理解 MLLMs 的发展提供了重要参考。[8] 提出了多模态学习的核心框架，并总结了代表性挑战，包括表示学习、模态翻译、模态对齐、模态融合与协同学习，奠定了 MLLM 研究的基础。[17] 评述了以视觉为中心的 MLLMs，涵盖其架构、模态对齐策略以及视觉定位、图像生成等应用。[183] 关注多模态模型中的人类偏好对齐机制，[30] 则深入探讨了模型的可解释性与可理解性，是可信 AI 的关键因素。[182] 详尽梳理了 MLLMs 在粒度、多模态与多语言覆盖及应用场景上的演进，并进一步推进了如多模态上下文学习、思维链推理、LLM 辅助视觉理解等新方法。[95] 系统地回顾了 MLLMs 在多种模态下的应用与安全性问题，[158] 则深入探讨了多模态思维链推理（Multimodal Chain-of-Thought, MCoT）在不同任务中的潜力。

为全面理解这一不断演化的研究图景，本文结构如下：第 2 节介绍背景知识与基本概念，并定义本文的综述范围与方法论；第 3 节对前述六大生成模态（T2T, T2I, T2M, T2V, T2HM, T2-3D）的历史发展进行梳理；第 4 节讨论四项核心技术（SSL, MoE, RLHF, CoT）的发展过程与关键作用；第 5 节综合分析跨模态的趋势、面临的挑战以及架构层面的共性，探索模态与技术之间的协同效应；第 6 节展望未来研究方向，如扩展 SSL 至新模态、模块化专家机制、以及非文本模态的思维链推理等；第 7 节总结全文核心观点，并探讨通向统一多模态系统的发展路径。
在这里插入图片描述

随着 MLLM 的不断发展，几个有前途的研究方向正在出现，这些方向推动了跨不同模式的生成建模的前沿。虽然现有系统已经展示了令人印象深刻的功能，但先进技术（如自我监督学习、专家模块化、推理时推理）之间的相互作用仍处于早期阶段。在当前的异花授粉工作和解决已确定的局限性的基础上，未来的研究必须旨在通过更紧密地整合架构、学习策略和特定于模式的约束来开发更强大、多功能和可控的 MLLM。视频、Motion 和 3D 数据上的 SSL。用于视频、动作和 3D 数据的 SSL 仍然是碎片化的，缺乏文本建模中的连贯性，其中下一个标记预测已成为标准。虽然目前的许多视频模型都是在文本、图像和视频数据的组合上进行预训练的，但它们往往无法捕捉时空域的更深层次的物理和因果结构。

未来的工作应该超越表面层面的框架预测，转向对潜在动力学进行建模，例如速度偏移、变形和物体相互作用，使模型不仅能够了解接下来会发生什么，而且能够了解它发生的原因。集成 3D 人体运动和对象数据集可以培养对物理交互和具体行为有更丰富理解的模型。像 LanguageBind [200] 这样的方法开始在规模上桥接模态，但该领域现在必须转向将这种对齐建立在物理定律和结构约束的基础上。最终，这些领域的 SSL 必须从浅层模式识别演变为动态因果理解的更深层次体现。

总结

这项综述制了 MLLM 不断发展的格局，研究了transformer、扩散模型、SSL、MoE、RLHF 和 CoT 等基础技术如何扩展到不同的输出模式。虽然每种模式都带来了不同的挑战，但它们越来越多地共享底层架构和学习策略，这表明正在向通用生成系统趋同。

一个关键的见解是方法论跨领域的高度可转移性。一种模式的进步，例如扩散模型在图像生成方面的成功，已经促进了其他模式的突破，包括视频合成和 3D 建模。同样，最初为文本任务设计的 MoE 和 CoT 等技术已被证明在视觉、运动和音频方面有效。这种多式联运协同作用不仅加快了进展，而且还指出了统一生成模型的可行性，这些模型能够处理具有共享推理和表示空间的复杂多模态任务。

展望未来，概述了未来的方向，例如视频和运动的统一时空表示、从视频到 3D 的深度感知传输，以及利用 Cosmos 等世界模型，这表明正在向更加集成、物理基础和上下文感知的系统转变。这些趋势强化了这样一种观点，即模式之间的界限越来越难以划定。

综上所述，MLLM 的演变不是并行轨道的集合，而是一个紧密连接的生态系统。跨模式的架构、技术和数据制度的交叉授粉不仅是可行的，而且是必不可少的。下一波生成式 AI 可能会由这些模型不仅是多模态的，而且从根本上是多模态的，旨在以统一和自适应的方式跨域推理、感知和创建。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战项目来学习。（全套教程文末领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型，我这份资料就可以无偿分享给你学习，我国在这方面的相关人才比较紧缺，大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r