即插即用系列 | TGRS 2025 GLVMamba：基于“全局-局部空间”与“尺度感知金字塔池化”的遥感图像分割，完美解决Mamba局部特征丢失问题

【摘要】本文提出GLVMamba模型，针对遥感图像分割中的孔洞和边缘粗糙问题，创新性地设计了全局-局部视觉状态空间(GLVSS)模块和尺度感知金字塔池化(SCPP)模块。GLVSS通过局部前馈和移位窗口机制，弥补传统Mamba模型破坏邻域依赖的缺陷；SCPP则通过自适应加权融合多尺度特征。实验表明，该模型在保持线性计算复杂度的同时，显著提升了分割精度，有效解决了遥感图像中类内变异大、类间相似性高等

花开山岗红艳艳

1158人浏览 · 2025-11-17 21:06:50

花开山岗红艳艳 · 2025-11-17 21:06:50 发布

论文题目：GLVMamba: A Global–Local Visual State-Space Model for Remote Sensing Image Segmentation

论文原文 (Paper)：https://ieeexplore.ieee.org/document/11014226
官方代码 (Code)：https://github.com/Tokisakiwlp/GLVMamba

哔哩哔哩视频讲解：https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

本论文的完整复现代码（即插即用版）已更新至专栏
即插即用系列 (代码实践)| TGRS 2025 GLVMamba：基于“全局-局部空间”与“尺度感知金字塔池化”的遥感图像分割，完美解决Mamba局部特征丢失问题

1. 核心思想

本文针对遥感图像语义分割中存在的孔洞、边缘粗糙以及因光照阴影导致的误检漏检问题，提出了一种名为 GLVMamba 的新型视觉状态空间模型。该模型的核心创新在于设计了 全局-局部视觉状态空间（GLVSS）模块，通过引入局部前馈反馈和移位窗口机制，弥补了标准 Mamba 模型（SS2D）在扫描过程中破坏邻域像素依赖性的缺陷，实现了全局上下文与局部细节的有效融合。此外，论文还提出了一种 尺度感知金字塔池化（SCPP）模块，通过自适应地加权融合不同尺度的特征，显著增强了模型对多尺度目标的感知能力并减少了分割空洞。

2. 背景与动机

文本角度总结：
遥感图像语义分割面临着巨大的挑战，主要源于地物的高类内变异性、高类间相似性以及复杂的光照阴影干扰。
- 现有方法的局限性：传统的 CNN 方法受限于局部感受野，难以捕捉长距离依赖，导致在大尺度目标或复杂背景下表现不佳；而 Transformer 虽然具备全局建模能力，但其二次方计算复杂度带来了沉重的算力负担。
- Mamba 的引入与缺陷：Mamba（状态空间模型）因其线性复杂度的全局建模能力而受到关注，但现有的视觉 Mamba 方法（如 SS2D）在将 2D 图像展开为 1D 序列时，破坏了图像原本的邻域空间结构，导致局部细节提取不足。
- 本文动机：旨在设计一个既能利用 Mamba 的高效全局建模能力，又能像 CNN 一样保留局部空间细节的统一架构，同时解决多尺度特征融合的问题。
动机图解分析：
- 图解挑战（对应论文 Fig. 1）：
  - 图 (a) 展示了“类内变异大”和“类间相似高”的问题。例如，不同颜色的汽车属于同一类，而低矮植被和树木虽然纹理相似却属于不同类。这说明仅靠局部特征难以区分，急需全局上下文信息。
  - 图 (b) 展示了“光照阴影”导致的问题。阴影遮挡使得建筑物和车辆的边缘模糊，甚至难以识别。这揭示了现有方法在处理遮挡和边缘细节时的**“语义鸿沟”**。
- 图解机制缺陷（对应论文 Fig. 3）：
  - SS2D 的扫描机制虽然通过四个方向实现了全局感受野，但在序列化过程中，原本在 2D 空间上相邻的像素（如汽车的两个部分）在 1D 序列中可能相距甚远。这种空间邻域的断裂是导致局部细节丢失的根本原因，也是本文 GLVSS 模块需要解决的核心问题。

3. 主要贡献点

[贡献点 1]：提出了 GLVMamba 网络架构
提出了一种结合 CNN 编码器和改进 Mamba 解码器的分割框架。与纯 Mamba 或纯 Transformer 方法不同，该架构利用 ResNet 提取高分辨率局部特征，并利用改进的 GLVSS 块作为解码器核心，在保持线性计算复杂度的同时，强化了特征重建阶段的全局-局部信息交互。
[贡献点 2]：设计了全局-局部视觉状态空间（GLVSS）模块
针对 SS2D 破坏邻域依赖的问题，GLVSS 引入了两个关键机制：
1. 局部前馈（Locality FeedForward）：在全局分支中引入深度卷积，补充局部归纳偏置。
2. 移位窗口机制（Shift Window）：在局部分支中通过垂直和水平移位操作，增强了不同轴向上的空间相关性。这使得模型在捕捉全局上下文的同时，能够精细化边缘轮廓。
[贡献点 3]：提出了尺度感知金字塔池化（SCPP）模块
为了解决空洞和误检问题，SCPP 模块不仅仅是简单的多尺度特征拼接。它引入了一个尺度感知模块，通过 Softmax 机制自适应地学习不同尺度（膨胀率 1, 3, 5）特征的权重（ $\alpha, \beta, \gamma$ ），从而动态地选择和融合最具判别力的特征，有效应对遥感图像中目标尺度的剧烈变化。

4. 方法细节

整体网络架构（对应 Fig. 2）：
- 编码器路径（Encoder）：采用 ResNet18 作为主干网络，分为 4 个阶段提取特征。输入图像经过各级 ResBlock 处理，通道数逐级增加（64 -> 512），分辨率逐级降低（H/4 -> H/32）。在编码器的末端，连接了 SCPP 模块 以捕获多尺度上下文。
- 解码器路径（Decoder）：由 4 个阶段组成，每个阶段包含 Patch Expand（用于上采样）和 GLVSS Block（核心特征重建单元）。
- 跳跃连接（Skip Connections）：编码器的浅层特征通过跳跃连接传输到解码器对应层，以补充丢失的空间细节。
- 输出（Output）：经过解码器重建的特征图通过分割头（Seg Head）进行双线性插值和激活，恢复到原始分辨率并输出预测结果。
核心创新模块详解：
- 模块 A：全局-局部视觉状态空间（GLVSS）模块（对应 Fig. 4）
  - 设计理念：为了解决 Mamba (SS2D) 丢失局部细节的问题，GLVSS 采用了双分支结构：全局分支负责长距离依赖，局部分支负责邻域细节。
  - 内部数据流：
    1. 输入处理：输入特征 $X$ 经过线性投影分为两部分。
    2. 全局分支（Global Branch）：特征进入 SS2D 模块进行四方向扫描，建立全局依赖。随后，输出进入 Locality FeedForward 模块（包含 Conv1x1 -> Conv3x3 -> Conv1x1），显式地补充局部邻域信息。
    3. 局部分支（Local Branch）：特征进入并行卷积层。为了增强空间相关性，引入了 Shift Window（移位窗口） 机制，分别进行垂直移位和水平移位，然后通过卷积提取特征。这种设计以低计算成本增强了特征的空间连续性。
    4. 融合：全局和局部分支的输出进行拼接（Concat）和层归一化（LN），并通过门控机制（Hadamard 积）进行融合，最终输出精细化的特征。
- 模块 B：尺度感知金字塔池化（SCPP）模块（对应 Fig. 5）
  - 设计理念：传统的空洞卷积虽然扩大了感受野，但会导致网格效应和局部信息丢失。SCPP 通过自适应加权来解决这一问题。
  - 内部数据流：
    1. 多尺度提取：输入特征并行进入三个分支，分别使用膨胀率为 1、3、5 的 $3\times3$ 卷积。
    2. 特征筛选：每个分支后接一个 SE Block（Squeeze and Excitation），用于通道注意力的特征筛选。
    3. 尺度感知融合（Scale-aware Module）：这是核心。三个分支的特征被求和后，通过卷积和 Softmax 生成三个权重图（ $\alpha, \beta, \gamma$ ）。这些权重图分别与对应的分支特征进行元素级相乘，实现自适应融合。
    4. 全局补充：融合后的特征与全局平均池化（Global Pooling）分支以及原始特征的 $1\times1$ 卷积分支进行拼接，得到最终输出。
理念与机制总结：
GLVMamba 的核心理念是 “互补与自适应”。
- 互补：GLVSS 利用 SS2D 的线性全局建模能力与卷积的局部归纳偏置互补，解决了遥感图像中“大尺度连通性（如道路）”与“小尺度边界（如车辆边缘）”难以兼顾的矛盾。
- 自适应：SCPP 通过可学习的权重，让模型根据图像内容（是主要是大片水域还是密集建筑）自适应地决定依赖哪个尺度的特征，从而消除了由于固定感受野导致的分割空洞。
图解总结：
- Fig. 2 展示了整体的 U 型结构，强调了 SCPP 位于编码器末端以整合全局多尺度信息，GLVSS 位于解码器以逐步恢复细节。
- Fig. 4 (b) & © 详细拆解了 GLVSS。对比 (a) 标准 VSS Block，可以看出 GLVSS 增加了局部分支和 Locality FeedForward，专门用于“修补” SS2D 扫描造成的空间破碎。
- Fig. 5 清晰地展示了 SCPP 如何通过 $\alpha, \beta, \gamma$ 权重图实现动态特征选择，这是解决 Fig. 1 中提到的“空洞”问题的关键机制。

5. 即插即用模块的作用

论文中提出的两个核心模块具有很强的通用性，可作为“即插即用”组件应用于其他计算机视觉任务：

GLVSS Block（全局-局部视觉状态空间块）
- 适用场景：适用于任何需要平衡全局上下文理解和精细局部细节保留的密集预测任务。
- 具体应用：
  - 医学图像分割：替换 U-Net 或 Swin-Unet 中的解码器模块，用于精确分割器官边界（如肿瘤分割），解决边界模糊问题。
  - 显著性目标检测：用于提取具备全局语义且边缘清晰的显著图。
  - 表面缺陷检测：在工业场景中，利用其全局扫描能力检测长距离划痕，利用局部分支检测微小凹坑。
SCPP Module（尺度感知金字塔池化模块）
- 适用场景：适用于目标尺度变化剧烈、背景复杂的场景，特别是当固定感受野无法满足需求时。
- 具体应用：
  - 城市景观分割：替换 DeepLab 系列中的 ASPP 模块，增强对极小物体（如远处行人）和极大物体（如大型建筑）的同场景处理能力。
  - 无人机航拍目标检测：作为特征金字塔（FPN）的顶层增强模块，帮助检测器适应无人机视角下巨大的尺度差异。
  - 人群计数：用于处理人群密度分布不均的场景，自适应融合不同尺度的特征以提高计数准确性。
    到此，所有的内容就基本讲完了。如果觉得这篇文章对你有用，记得点赞、收藏并分享给你的小伙伴们哦😄。