在大语言模型中将有效Token与视频异常对齐

这篇论文的主要创新是提出了一种新的多模态大语言模型（VA-GPT），通过空间有效令牌选择（SETS）和时间有效令牌生成（TETG）模块，提升了视频异常检测的空间和时间定位能力。主要还是以前的方法确实没有这种去选择有效token的，相当于过滤掉了冗余的信息，并给模型一些最有用的信息。

温柔哥`

1115人浏览 · 2025-09-16 11:36:58

温柔哥` · 2025-09-16 11:36:58 发布

文章目录

摘要
1 引言
2 相关工作
3 方法
4 实验
- 4.1 主要结果
- 4.2 消融实验
5 讨论
6 结论

Aligning Effective Tokens with Video Anomaly in Large Language Models
香港大学；香港中文大学
Arxiv’25’08

这篇论文的主要创新是提出了一种新的多模态大语言模型（VA-GPT），通过空间有效令牌选择（SETS）和时间有效令牌生成（TETG）模块，提升了视频异常检测的空间和时间定位能力。主要还是以前的方法确实没有这种去选择有效token的，相当于过滤掉了冗余的信息，并给模型一些最有用的信息。

基于XD-Violence构建了一个用于评估跨域的子集，并且还有面向时间定位的问答

摘要

视频异常事件的理解是一项至关重要且极具挑战性的任务，在各类应用场景中都备受关注。当前的多模态大语言模型（Multi-modal Large Language Models, MLLMs）虽然能够处理一般视频，但由于异常事件在空间和时间上的稀疏性，它们往往难以准确识别异常，冗余信息也常常导致结果不理想。为此，我们提出 VA-GPT，一种面向视频异常分析的新型 MLLM，用于对异常事件进行总结与定位。

我们的核心思路是通过两个关键模块在视觉编码器与大语言模型之间高效对齐有效的 token：空间有效 Token 选择（Spatial Effective Token Selection, SETS）和时间有效 Token 生成（Temporal Effective Token Generation, TETG）。这两个模块能够更好地捕捉和分析异常事件所涉及的空间与时间信息，从而显著提升模型的响应与交互准确性。

同时，我们构建了一个指令跟随数据集，用于微调具备视频异常感知能力的 MLLMs，并基于 XD-Violence 数据集设计了跨领域评测基准。实验表明，我们的方法在多个基准测试中均优于现有的最新方法。

1 引言

在视频中检测和总结异常事件是一项关键而富有挑战性的任务，它在多个研究领域和现实应用中都受到了广泛关注，例如安防监控、视频分析和犯罪侦查等。

尽管许多传统方法 [4, 16, 37, 43, 47, 73, 86] 已被广泛用于视频异常检测，但它们在有效性方面仍存在显著局限 [22, 51, 60, 66, 71, 84]。这些局限主要体现在两个方面：
1）传统的视频异常检测方法 [6, 13, 57, 63, 64, 86] 往往将任务视为一个封闭集合的检测与分类问题，本质上限制了它们对异常事件进行全面理解与解释的能力；
2）这些方法 [2, 19, 23, 65, 68, 78] 受限于有限的词汇表，因此难以有效应对未见过或新颖的情况。

近年来，视觉语言模型（Vision Language Models, VLMs）和大语言模型（Large Language Models, LLMs）取得了显著进展 [1, 28, 34, 36, 45, 58]，展现了在场景理解和综合分析方面的强大能力。多模态大语言模型（Multi-modal Large Language Models, MLLMs），尤其是那些面向视频理解的模型 [27, 29, 31, 39, 42, 74]，在通用视频分析任务上取得了重大突破。然而，尽管这些模型在一般视频理解上表现出色，但在准确检测和解释异常事件方面依然不足。

为缓解上述挑战，一些研究 [12, 55, 67, 75, 79] 提出了异常感知的视频 MLLMs，以更好地理解视频中的异常。尽管这些模型在检测明显异常事件（如打斗或火灾）时表现良好，但它们通常难以有效地将异常区域与相关描述对齐（需要解决空间冗余问题），并在准确识别异常时间段时遇到困难（需要解决时间冗余问题）。这是因为这些方法在空间和时间维度上对所有潜在 token 一视同仁，导致无关冗余 token 降低了性能。然而在大多数情况下，只有少量帧中的局部区域包含了识别异常所需的关键信息（如图 1 所示）。

250914：现有模型会把整帧画面里的所有区域都当作一样重要，结果就是“异常区域”和“描述文本”对不齐。换句话说：模型把无关背景（比如天花板、路面）也编码进去，噪声太多，影响了理解。

在这里插入图片描述

因此，我们提出探索这样一个问题：多模态架构如何通过选择性 token 的生成与处理机制，实现对异常显著信息的动态优先化，同时保持对整体场景的全面理解能力？

为了解决上述问题，我们提出了一种新模型 VA-GPT，用于分析各类视频中的异常事件，通过在空间和时间两个维度上将有效且准确的 token 与 LLM 对齐。VA-GPT 融合了两个核心组件，用于识别可对齐的有效视觉 token，同时去除可能妨碍异常分析、分散模型注意力的冗余 token，从而帮助模型提取有用信息：
1）我们设计了空间有效 Token 选择（Spatial Effective Token Selection, SETS） 模块，用于识别那些在与 LLM 对齐时存在挑战的区域对应的 token，同时过滤掉仅包含轻微动态的 token 以去除冗余。这是因为我们发现，异常事件往往会在局部区域表现出不同的视觉变化（见图 1）；
2）我们提出了时间有效 Token 生成（Temporal Effective Token Generation, TETG） 模块，利用一个轻量级的预训练分类器为每一帧分配置信度分数，以表明其是否可能包含异常事件。随后，TETG 会在语言空间中直接生成携带异常事件时间信息的高效 token，作为额外输入送入 LLM，从而有效增强模型对异常事件的时间推理和理解能力。

此外，除了常规的基准测试（域内 benchmark），我们还建立了一个新的跨领域评测协议，用于系统地评估模型在领域迁移下的鲁棒性。基于一个新的视频数据集 XD-Violence [64]，我们设计了涵盖异常事件的综合问答，这些内容包含了与训练数据不同的视觉信息，并将其作为新的跨领域基准。同时，我们在域内和跨域基准上均设计了面向时间信息的问答，以评估模型的时间定位能力。

大量实验表明，VA-GPT 在域内异常定位和跨域泛化场景中都展现了优越性，取得了当前最优的性能。

本文的主要贡献总结如下：

我们提出了 VA-GPT，这是一种面向视频异常感知的 MLLM，用于检测和总结各种视频中的异常事件，将 MLLM 引入视频异常理解这一特定领域。
我们引入了 SETS 和 TETG，使得模型能够同时有效捕获视频序列中的空间与时间信息，从而实现对异常事件的准确理解与定位。同时，我们提出了一个新的指令跟随数据集用于视频异常分析，并设计了一个全面的跨领域评测基准，更好地评估 MLLMs 在视频异常任务上的泛化能力。
我们的大量实验结果表明，该方法在多个基准上均优于现有的最新方法，凸显了其在视频异常理解中的有效性和潜在的实际应用价值。

2 相关工作

2.1 大语言模型（LLMs）

自然语言处理（NLP）领域取得了显著进展，特别是随着大语言模型（LLMs）的出现。Transformer 架构的提出 [3, 18, 59] 是一个关键转折点，随后一系列具有影响力的语言模型 [3, 10, 25, 80] 展现了卓越的能力。生成式预训练 Transformer（GPT）[49] 通过采用自回归预测方式，带来了 NLP 的一场革命，成为强大的语言建模方法。更近期的一些突破性成果，如 ChatGPT [45]、GPT-4 [1]、LaMDA [56] 和 LLaMA [58]，进一步拓展了这一领域的边界。这些模型依托海量文本数据训练，在复杂的语言任务中表现出了非凡的性能。

2.2 视觉语言模型（VLMs）

计算机视觉与自然语言处理的发展推动了视觉语言模型（VLMs）的兴起 [14, 21, 33, 34, 50, 61, 69]。这类模型结合了视觉与语言系统，以实现跨模态的理解与推理。典型代表包括：CLIP [50]，将 BERT [10] 与 ViT [11] 结合；BLIP-2 [28]，将视觉 Transformer 特征引入 Flan-T5 [8]；MiniGPT-4 [85]，连接 BLIP-2 与 Vicuna [28, 48]；PandaGPT [53]，桥接 ImageBind [15] 与 Vicuna。这些模型在图像分类、图像描述和目标检测等任务中表现突出 [24, 53, 83]。近期，视觉语言模型的研究已扩展到视频处理领域，出现了 Video-Chat [29]、Video-ChatGPT [42]、Otter [26]、Valley [39]、mPLUG [27]、Video-LLaMA [74] 和 LLaMA-VID [31] 等模型。这些系统支持交互式视频问答，提升了通过音频-视觉-文本对齐的理解能力，并能进行全面的视频分析。在本文中，我们结合 VLMs 和 LLMs，提出了一种新方法来进行视频异常理解。

2.3 视频异常理解（VAU）

对监控视频逐帧标注的工作量非常庞大，因此研究者们探索了多种替代方案：单类学习 [72]、无监督的异常检测（不依赖标注）[4, 5, 16, 20, 37, 38, 47]，以及仅利用视频级标注的弱监督方法 [6, 13, 30, 57, 60, 62, 63, 71, 76]。在单类学习中，Luo 等人提出了基于 ConvLSTM 的网络用于学习正常片段 [40]。一些研究采用自编码器（Auto-Encoder）重建正常帧特征 [5, 20, 81]，另一些则引入记忆机制 [4, 16, 37, 47] 或元学习 [38] 来提升泛化能力。针对弱监督学习，Tian [57] 使用多实例学习方法来定位异常片段；Zhong 等人尝试图卷积网络 [82]，但泛化能力有限。为解决这一问题，Ramachandra 等人提出了基于孪生网络的正常特征学习方法；Wan 和 Zaheer 等人 [60, 71] 则提出了基于聚类的异常识别框架。近期的研究引入了新的时空特征集成学习架构 [6, 13, 30, 57, 62, 63, 76]。然而，这些方法在推理阶段仅输出异常分数，需要在测试集上人为设定阈值来区分异常事件。

最新的研究已开始探索利用 MLLMs 来增强模型在识别与描述异常方面的能力 [12, 55, 67, 75, 79]。

3 方法

3.1 总览

任务. 视频异常理解型多模态大语言模型（MLLMs）的目标是：判断输入视频中是否存在异常事件，同时对已检测到的异常事件进行时间上的定位和完整过程的描述与交互。我们使用基于异常视频 [54] 构建的指令跟随数据集来训练模型，以便模型能够更好地对齐视觉编码器和大语言模型之间的 token，从而更准确地呈现并泛化异常事件的信息。

流程. 如图 2 所示，在视频理解 MLLM 框架中，输入一个包含 $T$ 帧的视频，冻结的 ViT-based [11] 视觉编码器（CLIP [52]）会从每一帧 $V^t (t=1,\dots,T)$ 中提取视觉 token $X^t$ 。其中， $X^t = \{x^t_i\}_{i=1,\dots,N}$ 表示当前帧的视觉 token 集合，对应 $N$ 个图像块。模态对齐将处理后的视觉 token $X^t$ 转换到 LLM 的语义空间。同时，文本提示会被处理并编码为文本 token 输入同一语义空间，作为 LLM 的输入部分。

我们模型的关键设计包括：
1）为每一帧从 $X^t$ 中选择空间有效 Token $X^{*t}$ （SETS），并在微调与推理中使用（见 3.2 节）；
2）生成时间有效 Token $S^{*t}$ （TETG），作为异常感知的时间先验，在推理中辅助 LLM 进行异常事件的时间定位（见 3.3 节）。

此外，我们还构建了高质量的异常视频指令跟随数据，并制定了相应的训练策略，以最大化所提方法的有效性（见 3.4 节）。
在这里插入图片描述

3.2 空间有效 Token 选择（SETS）

在传统的视频分类任务中，语境和关系是关键。然而，在我们的 MLLM 设置中，除了利用上下文信息外，最核心的问题是如何将视觉模态和语言模态对齐。因此，我们的设计重点在于提取有用信息，以便有效地将视觉 token 与 LLM 对齐。由于文本描述主要集中于异常事件，而异常通常只占整个视频的一小部分，如果将所有视觉模式都与文本 token 对齐，不仅不合理，而且计算代价过高。为此，我们首次提出了一种新的 token 选择方法——SETS (Spatial Effective Token Selection)，用于实现高效且有效的对齐。

帧间差异. 在视频中，我们认为相邻帧变化较大的区域更值得关注。如图 2 所示，对于视频中的每一帧 $V^t$ ，我们将其前一帧 $V^{t-1}$ 作为参考帧，用于衡量当前时刻与前一时刻之间的差异。采用 DINOv2 [46] 作为特征提取器，记为 $\mathcal{F}_E$ ，我们可以提取图像块的嵌入表示：

$\mathbf{F}^t, \mathbf{F}^{t-1} = \mathcal{F}_E(V^t), \mathcal{F}_E(V^{t-1}), \tag{1}$

其中 $\mathbf{F}^t, \mathbf{F}^{t-1} \in \mathbb{R}^{N \times C}$ 表示提取的嵌入特征（ $N$ 为图像块数， $C$ 为通道数）。由于这些特征具有良好的区分性和稳定性，我们计算它们逐块的距离，得到当前帧的帧间差异图：

$\mathbf{D}^t = dis(\mathbf{F}^t, \mathbf{F}^{t-1}), \tag{2}$

其中 $dis(\cdot)$ 表示曼哈顿距离 [17]，而 $\mathbf{D}^t \in \mathbb{R}^N$ 表示相邻帧间对应图像块的距离。

250914：曼哈顿距离就是 $x_1-x_2| + |y_1-y_2|$
注：曼哈顿距离是方格距离，欧几里得是直线距离

选择空间有效 Token. 根据帧间差异图 $\mathbf{D}^t$ ，我们设置一个向量 $\mathbf{M}^t = [m^t_1, m^t_2, \dots, m^t_N]$ 来记录每个图像块的差异值。对于距离最大的前 $K$ 比例的元素，赋值为 1，其余赋值为 0。由此我们得到一个用于筛选和更新视觉 token 的掩码，最终选取的空间有效 Token 定义为：

$\mathbf{X}^{*t} = \{ x^t_i \mid m^t_i = 1, m^t_i \in \mathbf{M}^t \}, \tag{3}$

250914：只保留那些满足 $m^t_i = 1$ 的 token（即变化最大的区域）

其中 $\mathbf{X}^{*t}$ 表示被选中的空间有效 Token（SET），它们将替代 $\mathbf{X}^t$ 进入后续的处理流程（见图 2）。SETS 能够高效地分离出与异常事件高度相关的区域，并参与到微调和推理过程中。

3.3 时间有效 Token 生成（TETG）

异常感知分类器. 我们设计了一个简单而有效的 MLP 分类器 $\mathcal{F}_A$ ，用于判断每一帧是否与异常事件相关。对于从特征编码器中提取的类别嵌入（记为 $\mathbf{z}$ ），我们可以根据训练视频的字幕将其划分为正常嵌入 $\mathbf{z}^n$ 和异常嵌入 $\mathbf{z}^a$ 。因此，可以通过以下二分类损失来优化 $\mathcal{F}_A$ ：

$\mathcal{L} = \mathbb{E}_{\mathbf{z}\sim \mathbf{z}^n} \left[ - \log \frac{1}{1+\exp^{-\mathcal{F}_A(\mathbf{z})}} \right] +\mathbb{E}_{\mathbf{z}\sim \mathbf{z}^a} \left[ - \log \frac{\exp^{-\mathcal{F}_A(\mathbf{z})}}{1+\exp^{-\mathcal{F}_A(\mathbf{z})}} \right]. \tag{4}$

异常感知分类器能够预测视频中每一帧是否与异常相关，它以极低的代价为 LLM 提供了重要的先验知识，从而帮助其进行推理。

250914：这里是一个二分类交叉熵损失，就是对正常帧，希望分类器输出低分，对异常帧，希望分类器输出高分。
注：但是这里他是全监督，它知道每一帧的正异常与否，所以成本也还挺高的。

生成时间有效 Token. 由于异常感知分类器提供的信息是显式的，我们可以方便地通过自然语言将其投射到 LLM 的文本 token 空间。基于分类器的预测结果，我们选择最有可能包含异常事件的首帧和末帧时间戳，分别记为 <a-start> 和 <a-end>。然后将其填入如下模板：

“Known common crime types are: ‘Shooting’, ‘Arson’, ‘Arrest’, …
There is one of the crime types occurring from <a-start> to <a-end>.”

由此得到的文本 token 即为 LLM 中的时间有效 Token（TET, Temporal Effective Tokens）。在推理过程中，借助已训练好的轻量级异常感知分类器，TET 会作为额外输入参与到 LLM 的前向过程，为其提供异常事件的时间先验知识（如图 2 所示）。

250914：这里也是局限于数据集的词汇表了，和他之前说什么人家传统方法局限于词汇表，他这里还不是一样。

3.4 训练策略

为了实现模态对齐与指令微调，我们遵循基线方法 [31]，确保视觉特征能够很好地与语言空间对齐。在本研究中，训练策略分为两个阶段：
1）第一阶段：使用异常视频数据进行微调；
2）第二阶段：将空间有效 Token 与 LLM 对齐。

[31] LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models

使用异常视频数据微调. 为了增强 LLM 对异常场景的理解，我们基于 UCF-crime [70] 构建了问答对用于微调。同时，我们还融合了来自不同来源的多样化指令对 [32]，包括文本对话、单轮/多轮的视觉问答对，以及视频问答对。在训练过程中，采用了文本、图像和视频的多种输入格式，并随机将图像 token 插入到用户输入的开头或结尾。在这一阶段，除冻结的视觉编码器外，其余模块均参与优化。经过微调后，LLM 将对异常事件形成优先感知，从而保证时间有效 Token（见 3.3 节）在推理时的有效性。更多数据集细节见第 4 节。

空间有效 Token 与 LLM 的对齐. 在异常视频场景中，大部分区域无法与语言很好地对齐。因此，我们引入了额外的微调步骤。该步骤利用 UCF-Crime 数据集中每帧提取的空间有效 Token（见 3.2 节）。通过引入这些 token，我们希望模型能够更精细地理解异常的空间上下文。同时，这种方式也带来了高效的优化过程；这种对齐仅需短期微调，即可显著提升模型检测和理解异常的能力。

4 实验

数据集. 我们在提出的指令跟随格式 [34] 训练数据集上对模型进行微调，该数据集基于 UCF-Crime [54]，包含 4077 个视频和 7730 张图像。我们在两个视频异常理解基准上评估模型：UCF-Crime [54]（域内评估）和基于 XD-Violence [64] 构建的跨域评估基准。更多细节见补充材料。

250914：这个数据集应该是它提出的，就是按照[34]那种流程构建的，但是论文里却具体说过。

基准与指标. 为了评估模型回顾视频并识别异常的能力，我们使用 Video-Bench [44] 提供的视频异常理解评测数据集来考察时间综合能力，该评测包含基于 UCF-Crime [54] 的自然语言问答对。同时，为了评估模型的跨域视频异常理解能力，我们基于 XD-Violence 数据集贡献了额外的问答对作为跨域基准。这些问答对包含四个选项，每个选项提供异常类别及其发生的时间区间。对于每个基准，我们设计了两类问题集：其一是对异常事件检测与理解的整体评估，其二是专注于时间定位能力的专项评估，采用问答准确率作为指标（记为总准确率 Total Acc. 和时间准确率 Temporal Acc.，数值越高越好）。

实现细节. 在网络结构方面，我们采用了预训练的 CLIP [52] 和 DINOv2 [46] 作为视觉编码器，并使用 Qformer [9] 作为文本解码器。我们遵循 [31] 的方法，在模态对齐过程中冻结编码器，并通过异常视频和指令数据优化可训练参数以进行指令微调。在训练过程中，我们基于 PyTorch，在四张 NVIDIA A100 GPU 上运行，使用 AdamW 优化器，批量大小为 64。学习率采用余弦衰减策略，初始学习率设为 $\times 10^{-5}$ ，总共训练 1 个 epoch。

4.1 主要结果

域内数据集结果. 我们首先在域内数据集上评估方法，其中测试集与第 3.4 节训练所用数据在风格和录制方式上保持一致。如表 1 所示，与基线方法 [31] 相比，在使用更少视觉嵌入 token 和时间有效 token 的情况下，我们的方法在总准确率上实现了超过两倍的性能提升，并且在时间定位上也取得了显著的提升。得益于我们提出的训练策略和设计的有效 token，异常事件的更纯净、更有效的视觉语义信息能够被高效对齐到 LLM，从而展现出强大的异常视频理解能力。同时，我们还与现有的视频理解模型进行了公平对比 [26, 27, 29, 39, 42, 74]（见表 1），结果显示了具有竞争力的性能。值得注意的是，我们的方法在所有方法中使用了最少的 token，却在总准确率和时间准确率上都达到了最新水平。
在这里插入图片描述

跨域数据集结果. 为了评估模型的鲁棒性与泛化能力，我们进一步设计了一个跨域基准。在所提出的跨域基准上，我们的方法与基线 [31] 及现有域内方法进行了公平对比。表 1 的结果显示，相比现有方法，我们的方法在跨域数据集上的性能有显著提升，凸显了其卓越的泛化与时间定位能力。这一显著优势为我们方法在多样化领域中的鲁棒性和适应性提供了有力验证。

与模型的交互. 我们还与训练好的模型进行了一些交互测试，以便更全面的评估。如图 3 所示，我们展示了模型在应对不同视频异常理解挑战时的表现。为了更好地评估效果，我们选择了不同长度的视频：短视频（0–1 分钟）、中等长度视频（1–30 分钟）和长视频（30 分钟以上）。这种多样性有助于全面检验模型应对不同场景的能力。在道路事故视频（图 3 左）中，我们的方法成功识别了高速行驶的汽车，并检测到人群倒下，即便是在低分辨率下；在爆炸视频（图 3 中），模型准确预测了场景及异常；在超过 30 分钟的正常视频中（图 3 右），我们展示了模型通过总结视频内容，同时关注整体和局部信息的能力。
在这里插入图片描述

其他基准上的对比. 我们还在另一个基准（MMEval [12]）上进一步比较了方法在视频异常理解上的表现，该基准从不同角度评估 LLM 的能力。我们在所提方法上进行了公平评估，并得到了如表 2 所示的定量结果，证明了我们方法的优越性。
在这里插入图片描述

4.2 消融实验

我们进行了大量消融实验，以验证方法中关键组件的有效性：空间有效 Token 选择（SETS，见 3.2 节）和时间有效 Token 生成（TETG，见 3.3 节），并结合第 3.4 节中的渐进式训练策略。

微调阶段. 高质量的 UCF 指令跟随数据显著提升了模型的性能。使用该数据进行微调，相比基线方法有明显的准确率提升。如表 3 所示，在采用我们模型设计（包括 SETS 和 TETG）的情况下，若不进行任何微调（记为 Baseline），异常检测的总准确率仅为 25.12%。经过异常视频微调（记为阶段一微调），准确率提升至 27.5%。进一步在此基础上加入 SETS 微调（记为阶段二微调），总准确率最终达到 30.69%。时间准确率的提升趋势也与微调阶段的递进保持一致。
在这里插入图片描述

250915：感觉这个表写的很乱，因为他有个模块名叫SETS，然后他二阶段微调又是引入空间有效token与llm的对齐，也叫SETS，没看懂，如果他第一阶段也用了SETS了的话，那为什么说的是第二阶段才引入？？？
我猜测是这样的：在baseline的时候，没有任何训练，直接使用两个模块后的性能；在第一阶段的时候，SETS不参与训练，然后推理的时候直接使用SETS模块；在第二阶段的时候，SETS也参与训练。

微调数据的有效性. 为了公平比较，我们将部分高性能模型 [31, 42] 使用我们提出的 UCF 指令跟随数据进行微调，并与我们的方法进行对比。如表 4 所示，这些对比模型在微调后性能都有所提升，证明了我们数据的有效性。但它们的表现仍不及我们的方法，这进一步证明了我们模型的有效性。
在这里插入图片描述

250915：这里说证明了他们模型的有效性，意思是说，其他那些通用模型，训练完后虽然能提升性能，但是不多；他们的模型（带着他们提出的两个模块）训练后提升多，说明他这个模块很有用。

SETS 的有效性. 我们提出的 SETS 在提取有用异常信息方面展现了高效性，从而显著提升了性能。如表 3 所示，使用 SETS 后，准确率分别达到了 24.83%、25.86% 和 29.31%（对应无微调、异常视频微调和 SETS 微调），远超基线的表现。其直观的信息过滤机制可通过图 4 进一步理解：原始视频中常包含大量无关或误导性数据。例如在图 4 的案例一中，整体结构较为复杂，但实际上只有很小一部分需要关注，SETS 能有效过滤掉不需要注意的动态特征；在案例二中，异常区域非常小，SETS 机制同样能够有效排除冗余和无关信息，从而显著提升模型准确识别异常的能力。

在这里插入图片描述

我们还对 SETS 的 $K$ 比例进行了消融实验（见表 5）。过小或过大的 $K$ 值都会导致总准确率和时间准确率的下降。如果 $K$ 太小，冗余信息会影响异常事件信息与字幕的对齐；如果 $K$ 太大，则会过滤掉部分重要区域，导致信息丢失和次优性能。

在这里插入图片描述

TETG 的有效性. 我们提出的 TETG 直接在 LLM 的文本 token 空间中为每个视频生成先验 token，为异常事件的时间属性提供了强有力的先验。这一机制在无需微调的情况下就能提升性能。如表 3 所示，准确率由 14.83% 提升至 23.79%。在结合异常视频和 SETS 进行微调后，准确率进一步提升至 26.10% 和 30.69%，验证了 TETG 的有效性。此外，SETS 与 TETG 的结合进一步凸显了有效利用空间和时间信息的重要性，使性能提升至 25.15%、27.50% 和 30.69%。

5 讨论

关键 token 发挥关键作用. 据我们所知，我们是首个探索如何将不同的可学习知识分配给不同 token，以便更好地在视觉内容上与 LLM 对齐的工作，从而推动视频异常检测与理解（见表 1 和图 3）。我们在空间和时间维度上为不同 token 分配最有效的角色，使模型能够更高效地处理各种 token。视频通常包含大量冗余信息，而我们提出的 SETS 和 TETG 分别有效压缩了异常事件的空间与时间信息，并以极低的成本利用 MLLM 的现有对齐机制参与到 LLM 的推理中（见表 3）。这一探索启发了更多关于 MLLM 表征学习的研究，以促进下游任务。

数据的重要性. 我们构建了大约 4000 个异常视频的指令跟随数据，这一规模远小于基线模型 [31] 所使用的微调视频数据（例如，超过 9 万个视频）。尽管如此，我们仍在域内和跨域基准（见表 1）上取得了令人满意的性能。这得益于我们指令跟随数据中的高质量问答对。同时，SETS 在微调过程中也提升了数据质量：与问答对无关的视觉区域被过滤掉（见图 4），使得在第二阶段微调（见 3.4 节）时，即便仅进行少量训练步骤（不足 150 次迭代），性能也能显著提升。

250915：这里说的也挺有歧义的，提升了数据质量是指你在训练时还把训练集给优化了？我感觉不是吧，应该指的是模型在训练时看到的信息更加精确和相关，而不被无关的冗余数据所干扰。虽然训练数据本身没有被修改，但通过SETS的处理，模型只会接收到高质量的、直接与异常事件相关的特征。

更广泛的影响. 视频异常理解在安防、医疗、工业安全等多个领域具有深远意义。通过提升对异常或可疑活动的自动识别与实时响应能力，LLMs 可以显著改善公共安全、犯罪预防、病人监护、危险检测、损失防控、交通管理以及城市规划等。这些系统能在操作效率与安全性方面带来实质性好处。

局限性. 尽管我们的模型能够较好地刻画异常事件的发生、类型和位置，但在检测和描述某些复杂场景时仍存在挑战。我们的方法代表了大模型在视频异常识别与定位方面的一次早期成功验证与探索，因此在识别多样化的异常视频场景方面具有巨大提升潜力。这些发现也激励我们继续研发更强大、更高效的视频异常理解技术，以期在未来应对更多真实世界中的挑战 [35, 41, 77]。

6 结论

本文提出了一种新型 MLLM，用于在视频中通过 LLM 理解异常事件，其核心是同时在时间和空间维度上对齐有效 token。所提方法包括：空间有效 Token 选择（SETS），用于在大场景的小区域中识别异常事件；以及时间有效 Token 生成（TETG），用于解决视频时间序列中异常事件稀疏性的问题。我们还构建了视频异常检测的指令跟随数据用于模型微调。此外，在视频异常理解基准和提出的跨域基准上的评测结果证明了方法的有效性。总体而言，该方法为利用 MLLM 进行视频异常理解提供了一种有前景的途径，展示了有效 token 在提升视频理解任务中的潜力。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐