红外-可见光融合的显著目标检测【1】-Multi-Interactive Dual-Decoder for RGB-Thermal Salient Object Detection

文章摘要本文提出了一种多交互双解码器架构用于RGB-热成像显著目标检测(RGBT SOD)。针对现有方法未能充分利用多模态互补信息的问题，作者设计了双解码器结构，通过多交互模块(MIB)实现模态间特征、多级特征和全局上下文之间的交互。该方法具有三大创新点：(1)在解码阶段进行模态融合，比编码阶段融合更易优化；(2)统一集成多类型交互形成鲁棒特征表示；(3)采用数据增强策略模拟无效模态情况提升模型

Fevered 路小小呀！

1506人浏览 · 2025-06-19 22:06:49

Fevered 路小小呀！ · 2025-06-19 22:06:49 发布

红外-可见光融合的显著目标检测

代读论文列表：
D.Wang,J.Liu,R.Liu,andX.Fan,“Aninteractivelyreinforcedparadigm for joint infrared-visible image fusion and saliency object detection,” Inf. Fusion, vol. 98, 2023, Art. no. 101828.

文章目录

红外-可见光融合的显著目标检测
- 代读论文列表： D.Wang,J.Liu,R.Liu,andX.Fan,“Aninteractivelyreinforcedparadigm for joint infrared-visible image fusion and saliency object detection,” Inf. Fusion, vol. 98, 2023, Art. no. 101828.
一、摘要翻译
二、引言
三、相关工作
四多交互双解码网络
五、实验
- 5.1 实验翻译
V. 未来工作
6.2 展望总结
VI. 结论
总结

题目：Multi-Interactive Dual-Decoder for RGB-Thermal Salient Object Detection
RGB-热成像显著目标检测的多交互双解码器

一、摘要翻译

RGB-热成像显著目标检测（SOD）旨在分割可见图像和相应热红外图像中的共同显著区域，我们称之为RGBT SOD。现有方法未能充分利用不同模态和图像内容多种类型线索的互补潜力， 这些线索对于实现准确的结果至关重要。在本文中，我们提出了一种多交互双解码器，以挖掘和建模多种类型的交互，以实现准确的RGBT SOD。具体而言，我们首先将两种模态编码为多级跨模态特征表示。然后，我们设计了一种新颖的双解码器，以执行多级特征、两种模态和全局上下文之间的交互。通过这些交互，我们的方法即使在存在无效模态的情况下也能在各种挑战性场景中表现出色。最后，我们在公开的RGBT和RGBD SOD数据集上进行了广泛的实验，结果表明，所提出的方法在与最先进的算法相比时取得了出色的效果。

二、引言

2.1 引言翻译

RGB-热成像显著目标检测旨在估计对齐的可见光和热红外图像对中常见的显眼对象或区域。热红外传感器捕获红外光线并生成一幅可以展示物体温度的图像。热红外图像可以提供许多有用的信息线索，使得许多棘手的任务能够很好地解决，在许多计算机视觉任务中已经得到了证明，例如RGBT跟踪[1]-[3]和多谱段人员重新识别[4]、[5]。在这篇文章中，我们专注于探索视觉感知的显著性和温度场，简称为RGBT SOD。在一些应用场景中具有重要意义，例如在雾天和夜间自动驾驶，以及在诸如发电站等重要场所中的异常物体检测。
有一个类似的任务叫做RGBD SOD，它引入深度图像以提供额外信息，以应对可见图像中的SOD（显著性检测）挑战。RGBT SOD 与此不同，具体区别如下。RGBD SOD 的目标是引入深度信息作为辅助模态，以解决类似前景和复杂背景的一些难题。由于深度信息能够捕捉物体与相机之间的距离，因此可以很容易地区分显眼的物体与其他相似物体和复杂背景。在大多数情况下，深度图像中的显著性与视觉显著性也是相符的。因此，现有的RGBD SOD 方法主要集中在探索作为补充的深度信息。而RGBT SOD 则以平等的方式对待 RGB 和热成像模态，并利用不同模态的优势来发现两个模态中共有的显著目标。

现有的一些研究在RGBT SOD（RGB和 Thermal 图像的单对象检测）任务上已经取得了一定的进展。王等人[6]提出了一种多任务流形排名算法，为每种模态引入了一个权重来描述其可靠性，然后根据这些权重自适应地融合两种模态。基于[6]的工作，唐等人[7]进一步考虑了合作和异质性因素，以更有效地融合不同的模态。图等人[8]提出了一种协作图学习算法来整合多级深度特征。然而，手工特征并不能很好地表示像素之间的语义相关性，基于超像素的方法需要准确地对超像素进行分割。因此，上述基于图的RGBT SOD方法在应对各种挑战时不具备稳健的表现。近年来，深度学习在特征表示方面显示出了其优势。也有一些基于深度学习的RGBT SOD方法。例如，图等人[9]利用注意力机制细化两种模态的多级特征，并采用另一条编码支路融合这些特征。更近一步，张等人[10]利用CNN中的特征融合来处理RGBT SOD的挑战。他们设计了三个模块分别用于结合相邻深度特征、捕捉跨模态特征以及通过整合多级融合特征来预测显著性图。
虽然上述工作取得了显著性能，但是还是有两个主要问题没有解决。第一个目标是实现多种模态的有效互补，防止噪声的干扰。第二个目标是抑制突出性偏差，也就是说，我们应该关注常见且明显的区域，避免结果被单一模态主导。
因此，综合考虑到上述问题，我们设计了一个双解码器来分别解码两种模态，并通过解码特征之间的相互作用来调整突出性，从而实现两种模态的共同突出性。具体来说，我们设计了一个多交互模块（MIB）来建模双模态、多级特征和全局上下文之间的交互。一方面，我们在两个分支之间引入模态交互，使它们从彼此中学习，实现相互补充。另一方面，双解码器中的全局上下文和多级特征之间也有交互。我们将三个MIB嵌入到双解码器的每一流中，以渐进的方式解码特征。该设计具有以下主要特性：1）它促进双模态之间的有用互补特征相互传播，即使某一种模态无效或有大量噪声，仍能实现良好的性能；2）它捕获分层编码的特征以恢复更多的空间细节。通过这些空间细节补全上采样的解码特征，从而可以实现更清晰的目标结构；3）它接收全局上下文，有助于突出完整的显著区域。全局上下文包含模态内和模态间的强语义相关性，这对于定位显著目标并抑制背景噪声非常有帮助。
为了抑制模态偏差，我们强制迫使双分支的两个解码器从不同的编码特征中提取更多的一致特征。我们在双解码器的顶部设置两个预测头，用于计算两种模态的显著性图，并采用标签监督来驱动每种模态中的特征学习。在监督的驱动下，两个解码流趋向于从两种模态中共同发现显著区域。需要注意的是，由于它们接收来自不同模态的编码特征，两条解码流各自具有独立的参数。双解码器输出的特征被融合以预测最终的显著性图，从而突出显示共同的显著区域。
为了使双重编码器更强大，即一种模式无效或有许多噪音，我们制定了数据增强策略。在特定的情况下，我们将模式的输入随机替换为零或标准正态分布采样的噪声图。通过这种方式，可以培训拟议的网络以适应这些情况。图1中显示了一些具有挑战的案例，这表明我们的多相互作用的双重模型网络具有限制互补信息并抑制缺陷输入的声音的能力。
在这里插入图片描述注意，RGBD 目标检测（SOD）通常将深度数据视为 RGB 数据的补充，并利用深度信息来辅助 RGB 目标检测。而 RGBT 目标检测同时对待摄像素和热红外数据一视同仁，因此目标是估计两模态中的共同显著目标或区域。为此，我们在每一幅图（Fig. 1）中使用相同的网络结构来建模所有模态。这种设计特别适用于 RGBT 目标检测，但如果我们将 RGB 和深度信息一视同仁，这种设计也可以应用于 RGBD 目标检测。在 RGBD 目标检测社区中，这种做法并不主流。
在几个公开的 RGBT 和 RGBD 目标检测数据集上的大量实验表明，所提出的方法在现有方法中达到了最先进的性能。本文的贡献总结如下：
• 我们提出了一种新颖的双解码器架构，以实现有效的RGB-T SOD（RGB和Thermal图像分割检测）。现有的方法通常在编码阶段进行多模态融合，但这种融合策略在解码阶段进行融合时更难以优化。在反向传播过程中，解码器中梯度计算的路径比编码器短，因此解码器的优化过程较少受到梯度消失或梯度爆炸的影响。因此，解码器比编码器更容易优化。
• 我们提出了一种统一模型，以无缝集成多种类型的交互，从而提高RGBT SOD（RGB和热图目标检测）的鲁棒性。特别是，多交互模型可以提取多种类型的线索，包括模态间的相关性、空间细节和全局上下文。与现有工作中单独利用不同线索来细化解码特征的方法不同，我们将在解码器中的双解码器中无缝地集成多交互块，作为解码器的基本模块。此外，我们的网络还具有两个解码器之间的交互，在每个解码步骤中都将其加入以逐步改进解码特征。
• 我们设计了一种简单而有效的数据增强策略来训练所提出网络，并在存在无效或不可靠模态的情况下进一步提升了性能。我们使用随机的零值或噪声图来模拟RGBT图像对中的具有挑战性的场景，这极大地增强了训练样本的多样性。从实验结果可以明显看到，尽管该操作很简单，但其效果十分显著。

2.2 引言总结

RGBT SOD任务定义

RGB-热红外显著目标检测旨在估计对齐的可见光和热红外图像对中的共同显著目标或区域。
热红外传感器捕获红外线并生成能够呈现物体温度的图像。
热红外图像可以提供许多信息线索，使许多困难任务得到很好解决。

RGBT SOD与RGBD SOD的区别

• RGBD SOD: 深度数据视为 RGB 数据的补充，并利用深度信息来辅助 RGB 目标检测。研究集中在挖掘作为补充的深度信息上
• RGBT SOD: 平等对待RGB和热红外模态，目标是估计两模态中的共同显著目标或区域
深度信息可以捕捉物体与相机之间的距离，容易区分显著目标与相似物体和杂乱背景。而RGBT SOD需要处理模态偏差问题。

本文贡献

1. 新颖的双解码器架构: 提出有效的RGBT SOD双解码器架构，在解码阶段进行多模态融合比编码阶段更容易优化
2. 统一的多交互模型: 无缝集成多类型交互，包括模态间相关性、空间细节和全局上下文
3. 数据增强策略: 设计简单有效的数据增强策略，在存在无效或不可靠模态时进一步提升性能

三、相关工作

3.1 相关工作翻译

A. 显著目标检测

近年来，基于深度学习的方法在显著对象检测方面取得了巨大进展。王等 [11] 利用神经网络进行局部空间特征和全局语义特征的融合，然后将局部估计与全局搜索相结合，预测显著图。刘等 [12] 设计了一个深度分层网络来预测粗略的显著图，然后通过逐级和逐步的细化来完善它。接下来，基于全卷积网络的许多研究因其在语义分割中的成功应用而出现。王等 [13] 提出了一种递归全卷积网络（FCN）来不断细化显著性。侯等 [14] 从深层侧输出添加了几条短连接到浅层侧输出，以提高准确性。罗等 [15] 将层次特征和对比特征结合起来生成局部显著图，然后使用全局语义特征对其进行润色。刘等 [16] 提出了一种新颖的像素级上下文感知网络，学习有选择地关注每个像素的上下文信息。邓等 [17] 提出了一种模块，通过交替使用低级特征和高级特征来学习中间显著性预测与真实值之间的残差。吴等 [18] 设计了一种级联回归部分解码器，以实现快速而准确的显著对象检测。赵等 [19] 将边缘检测引入显著对象检测（SOD）以获得更准确的边界。魏等 [20] 设计了一个合理的模块有效聚合层次特征，并提出了一种加权二元交叉熵损失函数，以强调预测困难的区域。众多研究使得SOD算法更加稳健。然而，现有的算法在应对诸如不良成像条件等挑战时仍然困难重重，这可能导致可见图中的缺陷或语义模糊。

B. 结合RGB和热红外的显著目标检测

随着热传感器的可用，许多研究工作 [21], [22] 将热红外图像引入显著目标检测（SOD），利用其互补信息。作为最初的尝试，Wang等人 [6] 构造了第一个RGBT SOD数据集，并提出了一种多任务流形排序算法。Tu等人 [23] 使用多模态多尺度流形排序来实现不同特征的融合，并引入中间变量来推断最优排序种子。此外，Tu等人 [8] 提出了一种RGBT SOD的协作图学习方法，该方法以超像素作为图节点，并使用分层的深度特征来学习图的亲和性和节点显著性。这些结合RGB和热红外的SOD方法使用传统的基于图的技术，这些技术在特征表示方面的能力有限。随着基于深度学习的方法在SOD任务上显示出卓越的性能，Tu等人 [9] 构建了一个包含5000张图像对的大规模数据集。他们还提出了一种有效的基线方法，该方法使用注意力机制细化两个模态的多级特征，并采用另一个编码支流来融合这些特征。然后，多级融合的特征以逐步的方式输入解码器中。Zhang等人 [10] 也通过特征融合来处理RGBT SOD的挑战。与[9]不同，他们将融合过程分为三个部分，并分别详细设计了三个模块来结合相邻深度特征、捕捉跨模态特征以及通过整合多级融合特征来预测显著性图。这两种方法都关注于融合两种模态的编码特征，然后使用融合特征进行解码。然而，没有适当的约束，这类方法无法很好地处理模态偏差。在这篇论文中，我们提出了一种更为合适、具有多交互双解码器的网络，以合理地利用各种线索并同时考虑模态偏差。

C. RGB-深度显著目标检测

近年来，RGBD显著目标检测（RGBD SOD）的研究十分广泛。Qu等人[24]设计了多模态输入的手工特征，并将其作为网络的输入来预测显著性图。Song等人[25]也利用多模态输入设计了多种特征，并利用低级别的特征对比、中级的特征加权因子以及高级别的位置先验来计算显著性度量。Liu等人[26]直接将模态连接成四通道输入，然后传入编码器以获得层次特征表示。最后，他们使用深度递归网络从深层次到浅层次、逐步地渲染显著对象轮廓。这些方法的多模态融合策略被称为早期融合，即简单地将模态作为网络的单一输入进行结合。与早期融合相比，中期融合策略的研究更为广泛。许多现有的RGBD SOD方法采用这种策略来充分融合模态。Liu等人[27]在解码阶段进行融合，通过直接将两个模态的特征与上一个解码步骤的特征相加来实现。Chen等人[28]设计了一个互补性感知融合模块来融合两个模态的特征。Chen等人[29]进一步提出了一种三路注意力感知网络，在这种网络中，引入了一条融合流伴随RGB特定流和深度特定流，以获取每层的新融合特征，然后这些融合特征用于解码。Piao等人[30]提取多级互补的RGB和深度特征，然后通过残差连接进行融合。接着，他们建模了深度信息与对象尺度的关系，并使用一个新的递归注意力模块生成更为准确的显著图。最近，Fu等人[31]使用暹罗网络提取两个模态的特征，并提出了一种紧密合作的融合策略。Zhang等人[32]考虑了背景信息。他们引入了双边注意力模块，包含前景优先注意力和背景优先注意力，捕捉更多的有意义的前景和背景线索。基于中期融合的方法可以有效地融合编码特征。

与上述专注于特征融合[29]-[31]或利用背景信息[32]的RGBD SOD方法不同，我们选择在解码阶段而非编码阶段进行融合，并设计了双解码器来分别解码两个模态，并允许解码特征的交互以调整显著性，从而获得两种模态的共同显著性。

2.2 相关工作总结

SOD 的方法
• Coarse -to -fine
• 全卷积
• 分支/残差
• 局部-全局【15】
• 边缘
• 聚合

SODI

1. 数据集
[6][9]
2. 方法
• 基于图模型/排序：
○ MTMR（多任务流形排序）：Wang 等人构建首个 RGBT SOD 数据集 VT821，通过为每个模态分配权重描述可靠性，自适应融合双模态。 [6]
○ SDGL（协同图学习）：Tu 等人以超像素为图节点，利用层次深度特征学习图亲和力和节点显著性。 [23]
○ M3S-NIR（多模态多尺度噪声不敏感排序）：Tu 等人引入中间变量推断最优排序种子，融合多尺度特征。[8]
• 深度学习：
○ ADF（注意力驱动融合）：Tu 等人使用注意力机制优化双模态多级特征，通过额外编码分支融合特征。[9]
○ 多级 CNN 特征融合：Zhang 等人将融合过程分为三级，设计模块结合相邻深度特征、捕获跨模态特征并预测显著图。 [10]

SODD

1. 早期融合策略
○ Qu 等人的 DF（深度融合）直接将 RGB-D 作为四通道输入，通过网络预测显著图。[24]
○ Liu 等人将模态拼接为四通道，通过深度循环网络从深到浅渲染显著轮廓。[26]
2. 中间融合策略
○ Chen 等人的 PCF（渐进互补感知融合）在解码阶段通过互补感知模块融合特征。[28]
○ Chen 等人的 TANet（三流注意力网络）引入融合流，伴随 RGB 和深度流生成融合特征。[29]
○ Piao 等人的 DMRA（深度诱导多尺度循环注意力）利用残差连接融合多级互补特征，建模深度与目标尺度关系。[30]
○ Fu 等人的 JL-DCF（联合学习与密集协作融合）通过孪生网络提取特征，设计密集协作融合策略。[31]
3. 背景信息利用
○ Zhang 等人的 Bilateral Attention Network 引入双边注意力模块，捕获前景和背景线索。[32]

四多交互双解码网络

4.2 网络架构翻译

A. 总体架构

如图2所示，我们使用两个独立的骨干网络分别从RGB图像和热红外图像中提取特征。

在这里插入图片描述
然后，全局信息模块可以结合两种模态的最高级特征，从而获得具有各种感受野的全球特征，这些特征随后用作精确定位重要区域的全局上下文。在解码阶段，我们采用基于两种模态的双解码器，以实现逐步的显著性计算。具体来说，我们设计了多交互块（MIB），并通过级联方式将其嵌入到双解码器中，以通过多种类型的信息实现充分融合。直观上，我们通过使用相同的显著性监督使双解码器的两个输出保持一致。因此，在逐步交互解码阶段实现了联合计算，同时抑制了两种模态的偏差和噪声。最后，我们将双解码器的最终特征融合以预测最终的显著性图。各个部分的详细信息将在接下来的子节中呈现。

B. 编码器网络

为了实现通用性和简洁性，我们使用VGG16 [33] 作为编解码器，从两个模态的图像中提取不同分辨率的层次特征。在此过程中，我们移除了VGG16的最后一层池化层和两层全连接层。众所周知，更深层的特征编码了高层语义信息，而浅层的特征则包含了更多的空间细节。最浅层的特征捕捉到了大量不有利于显著性预测的细节，并且提取这些特征具有较高的计算复杂度。为了提高效率和性能，我们舍弃了每个模态的这些特征。为了方便起见，我们从RGB图像中提取的剩余特征表示为R2∼R5，从热红外图像中提取的特征表示为T2∼T5。

C. 全局信息模块

全局上下文对于在RGBT SOD任务中定位区域至关重要。基于区域的上下文有助于保持显著区域的完整性并抑制背景噪声。因此，我们应该提取具有多种感受野的全局特征以提升性能。受到广泛应用于捕捉多种区域上下文的金字塔池化模块（PPM）[34]的启发，我们简单地调整了PPM，并将其嵌入到我们的网络中。详细情况请参见图2右下角。
在这里插入图片描述
我们收集了两种模态（R5和T5）的高层编码特征，然后在通道上进行串联。使用通道注意力机制进行选择性组合。为了简化，我们在CBAM[35]中使用了通道注意力机制，并用11卷积层替换了CBAM中的多感知器。

其中，f1(∗)，AvgPooling1(∗) 和 MaxPooling1(∗) 分别表示11卷积层、全局平均池化和全局最大池化。X是输入特征，Y是输出特征。σ(∗) 是将值映射到0到1范围内的Sigmoid函数。为了简化，这种通道注意力运算在后续公式中标记为CA(∗)。

卷积层、批量归一化[36]和ReLU[37]的组合标记为Conv(∗)。我们采用卷积块将通道数减少到256，并将输出标记为F：
F =Conv(CA([R5,T5])). (2)
其中[∗] 是通道级连接。然后使用四种不同大小的自适应全局最大池化操作来获得四个具有不同感受野的特征图。我们使用四个卷积块分别重建这四个特征图。之后，我们将四个特征图均增加采样到F的大小，然后与F连接。最后，我们对连接后的特征应用卷积层生成包含全局感受野信息的重建特征G。
在这里插入图片描述
其中UP(∗)是上采样操作，MaxPoolingn(∗) )是一种具有n×n输出大小的自适应最大池化操作。˜ Fi 表示第i个分支的输出，其中i = 1, 2, 3, 4对应n = 1, 5, 9, 13。G是图2所示的全局上下文。

D. 双解码器网络

我们的双解码器的架构在图2中可以看到。一般来说，层次化的编码特征对于解码特征的上采样总是有用的。而全局上下文对于区域定位至关重要。因此，我们采用多交互的方式，充分利用多种类型的线索。特别地，我们设计了一个多交互块（MIB），将其以级联方式嵌入解码器中，从而实现双模态、层次特征和全局上下文的交互。MIB的详细结构如图2的底部左侧所示。在本小节中，我们将重点关注三种交互模式，以详细解释MIB在双解码器中的作用。

1) 与层次特征的交互：

在每个解码器流中，我们逐步使用编码特征恢复空间细节。我们使用通道注意来强调更有用的特征，然后将通道数减少到128。
在这里插入图片描述
其中，Ai 表示相应的RGB编码特征Ri 或热成像编码特征Ti。当前解码流中的相应编码特征用于细化之前已上采样的输出的空间细节。由于采用了特定模态的编码特征，两个解码流的输出能够保持各自模态的强大特性。因此，我们可以在融合步骤后有效地防止有用细节的消失。例如，在图3中，我们可视化了双解码器中的第二组MIBs所使用的空间细节。从列(b)的图中可以看出，浅层编码特征中有丰富的细节。而在列(e)中，则能够保持具有丰富细节的模态特性。

在这里插入图片描述

2）双模态交互：

对于双模态的交互，我们将两个标记为Mi的解码器生成的前MIB输出进行串联。这些输出特征包含之前融合的信息以及两种模态的具体信息。在自顶向下的路径中，这些特征被视为具有强烈像素相关性的高级语义特征。然后，我们使用通道注意机制来适当地选择有用的信息，并从串联特征中实现特征重构。我们对重构特征进行上采样，使其尺寸与Ai相同，并采用卷积块将重构特征的通道数减少到128。从而我们得到˜Mi。
在这里插入图片描述
这里，我们通过通道注意机制来进行模态的融合，因为我们的目的是防止多模态信息互相干扰过多。我们认为，由于双解码器由相同的显著性监督驱动，解码器可以隐式地实现模态之间的互补性。在图3中，第三列显示了第二组MIBs中的模态融合特征。我们可以看到，RGB模态中的缺陷特征已被热成像模态补充。而在解码器中的后续步骤中，这些特征将被进一步完善，以变得更加强大。

3) 与全局上下文的交互：

在自上而下的路径中，随着空间细节的融合，高层次的语义信息将会逐渐被稀释[38]，这会导致对显著区域的定位不准确，因为显著区域的定位依赖于高层次的语义信息。此外，虽然高级编码特征模型表示像素的语义相关性，但 VGG16 的感受野太小，使得网络无法获取足够的语义信息，从而可能会遗漏大对象或多个对象的一部分。为了解决这些问题，我们在 III-C 节中设计了全局信息模块。G 为全局信息模块计算的全局上下文。我们将它整合到每个 MIB 中以保持显著区域的位置。具体来说，我们将 G 上采样到 Ai 的大小，并使用一个卷积块将通道数减少到 128。因此，全局上下文可以调整以与其他信息进行交互。
在这里插入图片描述
显然，在图 3 中我们可以发现全局上下文有效地强调了显著区域。通过与全局上下文的交互，显著区域的主要部分得到了强调，背景噪声得到了抑制。

4）多模态线索集成：

我们将上述三种类型的特征直接求和，并通过一个卷积块作为多模集成块（MIB）的输出获得重构融合特征 Z：
在这里插入图片描述

E 损失函数

给定预测显著性图 S ={Si|i = 1,…,T}) 和对应的ground truth Y ={Yi|i = 1,…,T}，其中 T为总像素数，常见于显著性对象检测(SOD)任务中的二元交叉熵(BCE)损失公式如下：
在这里插入图片描述

我们从双解码器的两个分支中预测两个显著性图 (S1) 和 (S2)，然后使用 ground truth (Y) 计算 BCE 损失：
在这里插入图片描述
为了更好地学习全局信息模块，我们从全局上下文 (G) 中预测一个显著性图 (Sg)。对于相同大小，我们将 (Y) 以16的因子下采样以获得 (Yg)，然后使用 BCE 损失：

其中 (T_g) 是 (Sg) 的总像素数。对于最终预测图 (Sf)，损失函数是：
在这里插入图片描述
此外，我们使用平滑损失 [39] 作为约束以实现区域一致性并获得更清晰的边缘。我们在平滑项中计算显著性图的一阶导数 [40] 如下：

其中∂d 表示在 (x) 和 (y) 方向上的部分导数。我们将 α = 10 ，如 [40] 所做。因此，我们的总损失是：
在这里插入图片描述
我们经验性地设置β = 0.5 以平衡平滑损失的效果。通过这四种约束的合作，我们的网络可以很好地训练。

F.噪声数据增强

我们观察到，RGBT图像对的一些模态并不是总是有用的。例如，在低光照条件下，RGB模态变得不可区分，而在前景和背景温度相近时，热成像模态会失效。即使在复杂的场景中，两种模态都有大量的噪声。因此，我们设计了一种简单而有效的数据增强策略来训练我们所提出的网络。**我们随机将其中一种模态设置为零图或从标准正态分布中采样的噪声图。**零图用于模拟存在一个无效模态的情况，因此网络无法从中提取有用信息。噪声图用于模拟噪声模态，从而网络可以获得大量无用信息。通过训练这种数据，我们的网络可以学会克服这些困难，并更多地关注模态之间的交互。在我们的实现中，我们将使用零图或噪声图的概率设为10%。两种模态各有50%的概率被替换，两种类型图的概率也各为50%。

4.2 总结

在这里插入图片描述

五、实验

5.1 实验翻译

A. 数据集

包括VT821 [6]、VT1000 [8]和VT5000 [9]。VT821包含821个注册的RGBT图像对。为了增强数据集的挑战性，对一些图像添加了一些噪声。由于VT821中的RGBT图像对是手动注册的，因此热红外图像中有空缺区域。VT1000包含1000个RGBT图像对，场景相对简单，图像对也对齐得很好。VT5000收集了5000个对齐的RGBT图像对，场景更复杂且包含多种对象。上述数据集中存在许多挑战，包括显著大目标（BSO）、显著小目标（SSO）、多个显著目标（MSO）、低光照（LI）、中心偏差（CB）、图像边界交叉（CIB）、相似外观（SA）、热交叉（TC）、图像杂乱（IC）、失焦（OF）和恶劣天气（BW），基本上涵盖了RGBT图像显著性检测（SOD）中所有的问题。在这项工作中，从VT5000中选择了2500个不同类型的图像对作为我们的训练集，其余图像对与VT821和VT1000一起作为测试集。

B. 实验设置

实现细节：我们的网络基于 PyTorch 构建，并在一台 Titan Xp GPU 上进行训练。我们使用随机梯度下降（SGD）来优化参数，权重衰减为 5e-4，动量为 0.9。我们使用批量大小为 4 的 100 个周期进行训练。初始学习率为 1e-3，在第 20 个周期后变为 1e-4，第 50 个周期后变为 1e-5。对于 RGBT 输入，我们把所有图像调整为 352×352 的尺寸。此外，我们计算训练集中所有图像的平均值和标准差，并使用这些值来归一化输入。
评估指标：为了评估不同方法，我们使用F-measure, S-measure,E-measure [41] 和均方误差 [42]，这些指标在 SOD（单通道图像分割）领域中广泛使用。F-测度的计算公式如下：

其中，β2 = 0.3 强调了精度的重要性，这一点由 [43] 提出。精度是正确预测前景像素与总共预测的前景像素的比例。召回率是正确预测的前景像素与 GT的比例。预测显著图的平均值加倍作为将显著图二值化的阈值，然后可以计算并标记为 Fm 的 F 值。此外，我们按照 [44] 的方法，计算加权 F 值作为另一个度量标准，标记为 wF。对于 PR 曲线，我们将显著性得分的范围等分为 x 部分作为将预测的显著图二值化的阈值，然后计算相应的精度和召回率。在我们的评估代码中，我们将 x 设置为 20。因此，可以计算出 20 个 F 值，并绘制出 PR 曲线。均绝对误差（MAE）的公式如下所示：

其中 S_i 是预测的显著性图，Y_i 是真实的 ground truth。T 是地图中总的像素数。因此，MAE 可以评估预测图与其 ground truth 之间的差异。我们将测试样本的所有 MAE 值进行平均，作为另一个评价指标。S-测量（Sm）用于评估空间结构的相似性，结合了区域感知结构相似度 S_r 和对象感知结构相似度S_o 。

其中我们将 α 设置为 0.5，更多细节请参阅 [45]。E-measure(Em) 是一种最近在 [41] 中提出的增强对齐度量，可以同时捕捉图像级别和像素级别的统计信息。通过使用所有这些指标，我们可以对我们的方法进行全面评估。

C. 与最先进的方法比较：

我们将我们的方法与12种现有的方法进行了比较。三种传统的RGBT图像分割（SOD）方法分别是SDGL [8]、MTMR [6] 和M3S-NIR [23]。一个基于深度学习的RGBT图像分割方法是ADF [9]。两个基于深度学习的RGBD图像分割方法是DMRA [30] 和S2MA [46]。还有六个基于深度学习的单模态图像分割方法包括R3Net [17]、PFA [47]、CPD [18]、EGNet [19]、PoolNet [38] 和BASNet [48]。为了保持这些单模态图像分割方法的结构一致，我们对它们应用了早期融合策略以确保公平性。此外，值得注意的是，我们的方法未使用如R3Net [17] 中使用过的全连接条件随机场（CRF）等任何后处理方法。
1）定量评价：表I显示了我们在测试集上与其他11种方法的比较结果。首先，可以看出，我们的方法在上述指标下优于现有的四种RGBT图像分割方法，尤其是在VT821数据集上，我们的方法表现出极大的优势。传统的三种方法的性能 inferior 于基于深度学习的方法，这主要是由于特征表示的不足和超像素表示的局限性所致。
其次，DMRA [30] 是一种最先进的RGBD图像分割方法，已经在RGBD数据集上证明了其有效性。它采用中间融合策略融合两种模态。我们在VT5000训练集上对其进行训练，但在RGBT数据集上显示了较差的性能。S2MA [46] 是最新的RGBD图像分割方法。从表I可以看出，它在RGBT图像分割数据集上也能表现出色。我们已经进行了分析：RGBD图像分割任务与RGBT任务不同，前者侧重于模态互补，深度图用作辅助信息，而后者侧重于联合推断，以消除模态之间的偏见，并且热图具有同等的重要性。因此，RGBD方法可以在RGBT任务中使用，但并不完美。尽管DMRA对两种模态的特征进行了对称融合，但它还采用了一个深度模块来调整特征，然而热图无法用于此操作。
在这里插入图片描述
第三，我们研究了六种单一模态的SOD方法，这些方法的性能最为先进。由于大多数可见光图像包含有用的信息，这些方法在简单情况下也能很好地工作。早期融合策略将两种模态视为整合的信息。在编码阶段可以探索模态之间的关系，并且模态互补性也可以得以实现。然后，借助各种先进的分割技巧，这些方法也能在RGBT SOD中很好地工作。我们将在消融实验中进一步研究我们方法的性能。
**2）定性评估：**定性比较如图5所示。我们可以看出，在具有挑战性的图像对中，我们的方法优于所有对比方法。我们的网络考虑了两种模态的特殊性，并合理地通过多种类型的线索整合了特征。尽管其中一种模态是无用的，另一种模态也很少受到破坏性信息的影响。当两种模态都包含有用信息时，我们的网络可以利用两种模态之间的互补性，在像素级别获得更可靠的相关性和通过抑制偏差做出一致的预测。即使两种模态都不可靠，例如图5中的第六列，我们的方法也能将两种模态中的有用信息结合，做出更好的预测。这些先进的SOD方法在具有信息的可见光图像中表现良好，但它们无法处理存在缺陷和语义模糊的图像。从图5中我们可以看出单模态SOD方法采用早期融合策略时容易受到噪声的影响，因此它们往往会检测到多余的错误像素或遗漏正确的像素。传统的RGBT方法可以准确检测出显著区域，但它们通常具有低置信度。基于深度学习的RGBT和RGBD方法可以获得更好的显著性图，而我们的方法在具有挑战性的场景中更为稳健
在这里插入图片描述
3) 基于挑战的定量评估：我们进一步研究了VT5000标注的所有挑战，并在表II中呈现了定量比较。前11列是挑战属性，最后两列是质量属性，展示了缺失的模态。如表II所示，我们的方法在所有挑战中表现最佳。我们在13个挑战中计算了所有方法的最大F值分数，并使用图6展示了这些分数的统计。因此，在图6中使用直方图呈现了所有方法在13个挑战中的平均F值分数。低照度（LI）、小显著对象（SSO）和恶劣天气（BW）似乎是最具挑战性的三类情形。因为这些情况更容易导致缺失模态或模糊的上下文。一旦模态之间存在差异，联合推理就会变得困难
在这里插入图片描述

D.消融实验

在这一部分，我们主要研究不同配置对网络性能的影响，如表 III 所示。这些实验是在 RGBT 数据集上进行的。我们首先探索双解码器两个分支的监督，用于指导模态互补性和消除模态偏差。然后我们研究了我们网络中的模态交互和全局上下文交互。由于解码器需要层次特征交互，我们没有对这一点进行研究。在没有模态交互的情况下，我们的网络退化为图 7 中 (a) 所示的原始后期融合框架。此外，我们还在图 7 中 (b) 所示的我们网络中研究了具有中间融合策略的单解码器流。
在这里插入图片描述

然后我们禁用已使用的数据增强策略，并验证其有效性。最后，我们将VGG16替换为ResNet50[50]作为网络的编码块。由于ResNet50提取的特征分辨率较低，我们进一步添加了一个MIB模块来融合低层编码特征。在接下来的部分中，我们将对这些因素进行详细分析。
在这里插入图片描述
1) 双解码器中的监督有效性：在表 III 中，’w/o Ld’ 表示我们没有使用两个解码器分支的输出特征来预测显著性图，监督仅存在于最终预测的显著性图中。如表 III 所示，不使用 Ld 时，四个指标的性能有所下降。我们在图 8 中可视化了最终解码步骤的特征图。当监督缺失时，模态互补性的能力减弱。因此，尽管存在多次交互，双解码器也无法良好合作。
2) MIB 的有效性：在网络中，两个解码器流由三个 MIB 组成。每个 MIB 都执行多种类型线索的交互和融合。因此，为了评估 MIB 的能力，我们应探索全局信息交互和模态交互的有效性。全局上下文在我们的网络中起着重要作用，因为我们依赖它来抑制长程背景噪声并突出前景区域。此外，它还提供了一种粗略的模态相关性，有助于寻找共同显著区域。如果没有全局上下文交互，四个指标（Sm、Em、Fm 和 MAE）在三个测试数据集上的平均指数分别下降 2.0%、2.7%、4.6% 和 18.1%。模态交互在所有解码步骤中进行。如果没有这些交互，框架会退化为图 7 中所示的普通晚期融合方法。我们在图 9 中比较了在网络中有无这种交互时的显著性图。如图所示，存在模态交互时，显著性图在前景区域和背景区域的置信更大。如果我们禁用双解码器中的模态交互，仅将双解码器的输出特征融合来预测显著性图，网络将无法抵抗来自一个不足模态的噪声影响，并且消除模态偏差的能力有限，从而导致不确定的结果。
3) 通道注意力机制的效果：在双解码器的最终特征融合中，我们采用了一种参考文献[35]提出的通道注意力机制。文献[35]已证明，这种机制在选择更有信息量的通道方面具有有效性。因此，我们采用通道注意力机制来融合两个顶部解码特征，以减轻通道中信息干扰的影响，这相比于立即连接或求和特征更为合理。我们进一步对该通道注意力机制进行了一项消融研究。我们放弃了通道注意力机制，并直接使用连接特征来预测显著性图。评估结果在表III第5行中呈现。与第7行相比，在五个指标上，性能分别下降了0.4%、0.9%、1.3%和6.5%。这些结果表明，通道注意力机制更有助于减少漏检和误报，这得益于有信息量通道的选择。
4) 双解码器网络的效果：我们进一步实现了一个基于单个解码器的网络版本，如图7(b)所示。该框架保持了全局上下文交互，并直接将两种模态的层次编码特征连接起来，在单个解码器流中进行交互。通过不同度量标准的比较，我们发现这种方法的性能明显劣于我们的基线模型，这验证了我们双解码器网络的有效性。
此外，我们在表IV中进行了双解码器参数的消融研究。与共享的双解码器相比，独立参数的设置分别在使用的四种评估指标中提高了2.0%、0.4%、1.5%和10.0%。使用独立参数可以实现更好的性能，因为双解码器设计目的是关注两种模态的特定显著性。通过独立参数，我们的双解码器能够学习捕捉每种模态的显著性。然后，两个解码器流逐渐交互，以获得共同的显著性。
在这里插入图片描述
5）噪声数据增强的有效性：最后，我们将使用和未使用噪声数据增强训练的网络性能进行了比较。如表III所示，在三个测试数据集中，使用噪声数据训练可以分别在四种评估指标上平均提高1.5%、1.0%、2.1%和9.0%的性能。我们在图10中展示了整个训练过程中的最大F-分数和MAE结果。网络在90个epochs后收敛，我们可以发现使用噪声数据增强训练的网络表现出稳定的改进。
6）不同骨干网络的有效性：我们用ResNet50替换VGG16作为网络的骨干网络。这种设置在表III中标记为“MIDD®”。众所周知，ResNet50在特征表示方面的能力比VGG16强，但根据表III我们可以看出，两个骨干网络的性能差异不大。这主要是由于ResNet50提取的特征分辨率较低。ResNet50输出的分辨率是VGG16的一半，因此具有较少的空间细节和更粗略的结构。由于ResNet50提取的特征分辨率较低，我们进一步添加了一个MIB模块以融合底层编码特征，标记为“MIDD(R+)”。通过额外的MIB，输出具有更高的分辨率和更多的细节，但也会整合更多的背景细节。因此，“MIDD(R+)”在某些方面可以提高性能，但不是最优设置。我们网络的这三种设置在不同场景下可以展示其优越性，并且它们全都优于当前最先进的方法。

E. 在 RGBD SOD 数据集上的实验

**1) 数据集：**为了充分验证我们的方法在 RGBD SOD 方面的有效性，我们在七个 RGBD SOD 基准数据集上进行了实验。NJP2K [51] 包含1,985 对 RGBD 图像及其标注的显著性图，这些图像是从互联网、3D 电影或使用富士 W3 摄像机拍摄的。NLPR [52] 收集了 1,000 对使用微软 Kinect 摄取的 RGBD 图像。DES [53] 也称为 RGBD135，因为它包含 135 对使用微软 Kinect 摄取的室内场景 RGBD 图像。LFSD [54] 包含 100 对包含深度信息并标注好的图像与地面真实值。SSD [55] 也是一个小数据集，包含从三个立体电影中选取的80个图像对。SIP [56] 收集了1000个户外场景的图像对，并包含许多具有挑战性的场景。STERE [57] 也包含1000个各种图像对，其中包括实际场景和虚拟场景。我们从NJU2K [51] 和NLPR [52] 数据集中随机抽取了1485个图像对和700个图像对作为训练集，这在RGBD场景物体检测方法中是常见的。为了公平起见，我们在DES, LFSD, SIP, SSD和STERE上进行测试。
2) 实验设置：我们从NJU2K [51] 和NLPR [52] 数据集中随机抽取了1485个图像对和700个图像对作为训练集，这在RGBD SOD方法中很常见。为了公平起见，我们在DES, LFSD, SIP, SSD和STERE上进行测试。
我们比较了10种适用的RGBD SOD方法，包括DF [24]、PCF [28]、CTMF [58]、MMCI [59]、AFNet [60]、TANet [29]、DMRA [30]、D3Net [56]、S2MA [46] 和cmSalGAN [61]。这些方法相对平等地处理RGB和深度信息，因此与我们的方法比较是公平的。我们使用提供的代码和模型进行预测，或者直接使用提供的视觉显著图来进行S-measure(Sm)、E-measure(Em)、F-measure(Fm)和MAE的评估。对于我们的方法，除了将输入大小调整为256之外，我们遵循RGBT SOD的实验设置，因为我们不使用噪声数据增强策略，因为RGBD图像对更不容易捕捉到无效信息。此外，我们计算了训练集中所有图像的均值和标准差，并使用它们对输入进行归一化。
3) 定量评估：如表V所示，我们的方法在RGBD数据集上也表现出色。与十种RGBD SOD方法相比，我们的方法甚至可以超越其中的大多数。在SSD上，性能没有遵循其他数据集的规律，这主要是由于SSD样本的数量较少和样本间的差异较小所导致。因此，性能显示出较低的稳定性。在其他数据集上，我们的方法基本上可以超越其他比较的方法。并且基于ResNet50 [50] 的方法以及四个MIBs能够进一步提高在大尺寸数据集或高分辨率样本如SIP和STERE上的性能。
在这里插入图片描述

V. 未来工作

最近几年，扩展的显著目标检测任务，如RGB-T和RGB-D显著目标检测(SOD)，已经被广泛探索。然而，仍然有很多潜在问题没有很好地解决。例如，在本文中，尽管我们通过隐式学习考虑了两种模态的显著性偏差，我们认为更具有意义的是显式建立两种模态之间的关联。此外，捕获的图像对并没有自然对齐。考虑到构建大量对齐图像的数据集需要大量的劳动，因此提出无需对齐的多模态SOD算法是必要的。随着共显著性(Co-saliency)工作的成功，如[62]、[63]，我们认为无需对齐的多模态SOD从理论上讲是可行的。此外，视觉显著性的不确定性也是一个值得注意的问题，这个问题首次被[64]研究。除了上述提到的显著性相关问题，最近还引入了一种反向研究，称为伪装目标检测。伪装目标检测旨在识别嵌入其环境中的目标，如[65]、[66]所研究的。解决这一任务需要视觉感知知识，这个新的问题值得进一步探索。

6.2 展望总结

在这里插入图片描述

VI. 结论

在本文中，我们提出了一种用于RGBT SOD任务的多交互双解码器网络。考虑到双模态之间的不同相关性，以及编码的层次特征和全局语境，我们设计了一个具有级联多交互模块的双解码器网络，以实现不同来源数据的充分融合。所提出的方法可以在交互过程中防止两种模态之间信息的过度影响。同时，在相同的监督下，两个解码分支趋于一致，从而隐式地抑制了双模态之间的偏差。实验结果表明，我们的方法在RGBT SOD和RGBD SOD任务上都具有明显的优势。此外，我们还讨论了更多值得研究的潜在问题，并将在未来进一步探索解决这些问题的方法。