首个微表情理解大语言模型MELLM
作为一种揭示人类隐藏情绪的重要心理反应,微表情是发生在人脸面部的、微弱与短暂(500ms以内)的情绪反应。微表情识别研究在刑侦审讯、临床心理诊断、教育等领域有着广泛的潜在应用价值,也是情感计算中一项关键但具有挑战性的任务。现有微表情识别(MER)研究大多聚焦在离散情绪分类任务上,缺乏对面部细粒度运动的描述与情绪内涵分析,不仅可解释性差,也难以落地应用场景。近年来,随着多模态大语言模型(MLLMs)
论文地址: https://arxiv.org/abs/2505.07007
项目地址: https://github.com/zyzhangUstc/MELLM
01.项目介绍
作为一种揭示人类隐藏情绪的重要心理反应,微表情是发生在人脸面部的、微弱与短暂(500ms以内)的情绪反应。微表情识别研究在刑侦审讯、临床心理诊断、教育等领域有着广泛的潜在应用价值,也是情感计算中一项关键但具有挑战性的任务。现有微表情识别(MER)研究大多聚焦在离散情绪分类任务上,缺乏对面部细粒度运动的描述与情绪内涵分析,不仅可解释性差,也难以落地应用场景。近年来,随着多模态大语言模型(MLLMs)的快速发展,其强大的多模态理解能力以及语言生成能力在各种下游视觉语言任务中的应用中取得了显著成果,这为微表情理解分析带来了新的机遇。
然而,尽管MLLMs在许多视觉任务上表现出人类级别的感知能力,但当直接将MLLMs应用到微表情理解上时,模型难以准确捕捉微表情视频中的细微运动以及其所揭示的情感状态。如下图所示:
在分析一段情感标签为“Surprise”且对应动作单元(AU)标签为“right AU1 + right AU2 + right AU12”的微表情视频时,多模态大模型 Gemini-2.5-pro 和 Qwen-VL-max 仅识别出了眼部闭合这一特征,而这一特征与该微表情无直接关联。事实上,这两种模型忽略了右侧眉毛和嘴角的细微动态变化,因而未能识别出 right AU1、right AU2 和 right AU12,也无法准确判断出该表情所对应的“惊讶”情绪。
尽管已有一些研究直接利用与表情相关的大规模视频或图像数据对现有的大模型进行微调,并取得了令人鼓舞的成果,但当将这一策略直接应用于微表情识别任务时,仍面临两个关键挑战:其一,相较于普通表情,微表情在时空维度上的变化更加细微;其二,大模型通常依赖大量训练数据,才能有效学习并感知微表情中细微的面部运动。由于微表情本身的隐匿性神经生理特质,数据获取困难,样本数量极为有限,从而使得这一方法在微表情场景下难以实现。
为了解决上述挑战,研究组开发了世界首个微表情理解大语言模型MELLM(Micro-Expression Large Language Model),开启基于MLLM和细微面部运动感知增强的微表情理解探索。具体而言,为了引导MLLMs重点感知微表情运动变化的面部区域,我们将“起始-峰值”之间的光流动态与对应的灰度起始帧融合,构建出可解释的运动增强彩色图,作为模型输入。此外,我们还引入了专门的微调策略,进一步提升模型对微表情的视觉感知能力。基于面部动作编码系统(FACS)注释和情绪标签,我们构建了一个指令描述数据集,用于训练 MELLM。在多个基准数据集上的评估结果表明,我们的模型在微表情理解任务中展现出了更强的感知能力和泛化性。我们的工作首次将大语言模型引入微表情感知领域,结合运动增强表征和指令微调策略,提供了一种可扩展的微表情建模范式,为后续相关研究提供了新的思路与技术路径。
02.技术路线
2.1 任务定义
我们提出了 “微表情理解(MEU)”任务,目标不仅是微表情的情绪判别,同时关注面部AUs的的感知和理解过程。该任务包括三个部分:面部运动分析、表情推理,以及最终结论的输出,旨在提升微表情模型的细粒度情感感知能力和推理能力。
2.2 技术细节
我们的方法主要由以下几个模块构成。首先,我们提出了微表情运动增强色彩映射(MMC-Mapping)模块,以增强微表情的视觉细节,提升其可感知性。其次,为了实现从低阶运动特征到高阶情感语义的层次化推理,我们设计了光流引导的微表情理解模块(FGMU)。在此基础上,我们构建了微表情理解的指令数据集。最后,基于Qwen2.5-VL模型架构并采用LoRA微调方法,我们构建了MELLM模型。
(1)微表情运动增强色彩映射模块(MMC-Mapping)
为增强微表情的感知性,我们引入了光流映射方法:计算起始帧与峰值帧之间的TV-L1光流,消除头部运动干扰后,将方向映射到色调、幅度映射到亮度,并与灰度人脸图叠加,从而生成直观的动态可视图(MMC-Map)。
(2)光流引导的微表情理解(FGMU)
FGMU将微表情的推理过程分为三步:
-
运动分析与AU识别:通过色彩模式分析面部关键区域的光流,识别出激活的AUs;
-
表情推理:根据识别到的AUs结合整体运动趋势推断情绪类别;
-
最终结论:结论包含AUs及其对应的微表情标签。
下图展现了MMC-Mapping和FGMU的详细过程:
(3)MEU指令****遵循数据集构建
我们基于DFME数据集构建了符合FGMU推理策略的指令数据集。通过分析颜色块的方向与强度,标注关键面部区域中与AUs对应的光流特征,并引导模型完成从光流到AUs再到微表情的完整推理链条。数据标注由大语言模型生成,并经人工校正。
(4)MELLM模型设计
以Qwen2.5-VL-7B为基座模型,结合LoRA轻量微调策略,我们构建了MELLM模型。如下图所示,模型以MMC-Maps为输入,通过视觉编码器生成视觉token,与prompt对应的文本token共同输入语言解码器进行推理。
03.实验效果
我们将MELLM与当前主流的多模态大模型(如Qwen2.5-VL-7B、Qwen-VL-Max 和 Gemini-2.5-Pro)进行了对比。原始的MLLM在处理微表情数据时,难以识别细微面部动态,常将情绪判定为“中性”。但在引入MMC-Map与包含先验知识的prompt后,这些模型的表现有所提升,尤其是Gemini-2.5-Pro效果更为明显。然而,它们的整体感知能力依然有限。
我们的方法在所有评估数据集(包括CASME II、CAS(ME)3以及DFME TestA和DFME TestB)的UF1、UAR和ACC指标上均取得最高分数,展现出其出色的性能。值得一提的是,在zero-shot设定下,MELLM在CASME II和CAS(ME)3数据集上依然取得领先成绩,验证了其优秀的泛化能力。具体实验结果如下表所示:
此外,我们也将MELLM同现有的微表情分类模型进行性能比较,具体实验结果如下表所示。在DFME的TestA和TestB数据集上,我们的方法在UF1和UAR指标上均优于MER基线方法FearRef,表明引入光流驱动的AU识别与情绪推理机制具有显著优势。尽管在部分指标上略低于专为微表情识别设计的端到端分类器,但这些方法通常依赖强监督信号,且在小样本数据上易发生过拟合。相比之下,MELLM采用可解释的推理框架,不仅保持了良好的分类性能,还显著提升了模型的泛化能力与可信度。
04.案例展示
为直观展现 MELLM 对微表情的理解能力和相对于其他大模型的优势,下图中展示了 MELLM、Qwen2.5-VL-7B 和 Qwen-VL-Max 对相同微表情输入的分析示例。在这些案例中,Qwen2.5-VL-7B 和 Qwen-VL-Max 的表现均不理想,两者在区域颜色感知方面能力较弱,容易出现信息幻觉。此外,它们在AU识别和情绪推理上的能力也较为薄弱, Qwen2.5-VL-7B在 AU 相关知识方面也存在明显缺失。相比之下,MELLM能够针对面部各区域的运动进行视觉检查,并推断出相应的AUs,结合AUs组合以及面部整体的运动模式,正确地推断出面部微表情。
05.总结与展望
在本文中,我们提出了一种面向微表情理解的大语言模型MELLM,结合了对细微运动的感知策略与MLLM强大的推理能力。具体而言,我们设计了一种运动增强的颜色映射方法(MMC-Mapping),通过融合光流信息与对应的灰度图像,有效突出面部中微小运动变化区域的视觉特征;同时,提出了光流引导的微表情理解策略(FGMU),建立光流特征与AU之间的对齐关系,从而实现可解释性的 AU 的识别和微表情推理。在此基础上,我们构建了一个面向微表情理解的指令数据集,为微表情的细粒度识别提供了数据支持。在多个基准数据集上的评估表明,MELLM在MEU任务中展现出更强的泛化性和感知能力。
后续研究可从以下几个方面展开:
(1)针对MLLM在细粒度面部运动感知方面的不足,探索更有效的微调策略,以提升其对微表情动态变化的感知和情绪推理能力。
(2)构建微表情大语言模型的评测基准体系。评估指标不仅应涵盖最终结果的准确性,还应包括模型视觉描述内容的准确性以及推理过程的逻辑合理性等方面。
(3)优化模型架构,在保持模型推理能力的基础上,进一步提高其在AU识别和情绪判别上的准确性。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)