一种融合多尺度高频信息增强的混合域红外小目标检测网络
本文提出了一种创新的红外小目标检测方法HDNet。针对小目标尺寸多变、信噪比低、易受复杂背景干扰的难题,HDNet首创了混合域协同检测框架。它通过空间域的多尺度空洞对比卷积(MAC)增强目标特征感知,同时利用频域的动态高通滤波器(DHPF)自适应抑制低频背景噪声。双分支信息深度融合,实现了精准定位与背景净化的双重优势。在三个公开数据集上的实验表明,HDNet性能全面超越26种现有先进方法,为复杂场
📌 一种融合多尺度高频信息增强的混合域红外小目标检测网络
📘 论文信息
- 题目:HDNet: A Hybrid Domain Network with Multi-Scale High-Frequency Information Enhancement for Infrared Small Target Detection
- 期刊:IEEE Transactions on Geoscience and Remote Sensing(TGRS)
- 论文链接:10.1109/TGRS.2025.3574962
- 数据:IRSTD-1K, NUAA-SIRST, NUDT-SIRST数据集
- 代码:HDNet-TGRS
- 年份:2025
- 单位:山东大学
- 🖼️

创新点
- 提出了一种用于IRSTD任务的新型混合域网络(HDNet)。它利用了空间域中的多尺度目标感知能力和频域中的低频信息抑制能力,以提升IRSTD的性能。
- 在空间域中提出了一种新颖的多尺度空洞对比卷积(MAC)模块。该模块提高了目标与杂乱背景之间的对比度,增强了对尺寸多变的小目标的感知能力。
- 在频域中提出了一种新颖的动态高通滤波器(DHPF)模块。该模块计算低频能量并动态移除其特定比例,有效抑制了缓慢变化的低频背景干扰。
背景
研究背景
红外小目标检测(IRSTD)旨在从红外图像中识别并分割出尺寸小、信噪比低的目标,在军事侦察、交通监控等领域具有重要应用价值。如图所示,红外小目标通常仅占数个至数十个像素,且常淹没于复杂的背景噪声(如云层、地面杂波等)中,检测任务极具挑战性。
当前存在的问题
- 空间域方法的局限性:传统卷积神经网络(CNN)受限于局部感受野,难以建模全局上下文信息,其下采样过程会丢失小目标的高频细节,导致漏检。
- 频域感知能力不足:现有方法多集中在空间域设计,缺乏对图像频域特性的显式建模,难以有效分离目标高频信息与背景低频噪声。
- 多尺度与动态背景适应能力弱:传统方法及部分深度学习模型对目标尺度变化和复杂动态背景的鲁棒性不足,容易产生虚警或漏检。
- 频率分离策略僵化:少数引入频域处理的方法多采用固定阈值或静态滤波,无法自适应地应对不同图像中变化的频率能量分布。
本文要解决的问题
本文提出HDNet,旨在通过协同利用空间域与频域信息,解决上述挑战:
- 设计多尺度空洞对比卷积模块:在空间域中增强模型对多尺度、低对比度小目标的感知能力。
- 提出动态高通滤波机制:在频域中自适应地抑制低频背景,保留并增强目标相关的高频信息。
- 实现跨域特征融合:通过联合优化空间域与频域分支,提升模型在复杂场景下的检测鲁棒性与准确率。
该工作通过融合空间细节感知与频域背景抑制,显著提升了红外小目标检测的综合性能。
数据
本研究在三个公开且广泛使用的红外小目标检测数据集上进行了实验,以全面评估所提出方法的性能。各数据集的基本信息和划分方式如下表所示:
| 数据集名称 | 图像数量 | 训练集/测试集划分方式 | 主要特点与挑战 |
|---|---|---|---|
| IRSTD-1k | 1001 | 4:1 | 数据量较大,场景多样,包含不同尺寸和信噪比的目标,是当前的主流基准数据集。 |
| NUAA-SIRST | 427 | 4:1 | 目标通常非常微小,背景复杂,对模型的微小目标感知和背景抑制能力要求高。 |
| NUDT-SIRST | 1327 | 1:1 | 包含大量空中和地面场景,目标尺度变化范围广,背景干扰类型丰富。 |
划分说明:数据集的划分遵循了对应原始论文及该领域主流对比研究的标准做法,以确保实验结果的公平性与可比性。
方法
如图所示,本文提出的 HDNet 是一个混合空间域与频域的网络。
总体架构
如图所示,HDNet 网络包含两个核心部分:空间域网络和频域网络,协同工作以检测红外小目标。
空间域网络 负责捕捉目标的形状和细节。它采用一个编码器-解码器结构:
- 编码器 使用我们创新的 MAC 模块,通过多个不同尺寸的卷积核来增强模型对不同大小目标的感知能力。
- 解码器 逐步上采样,并结合编码器的特征,生成一系列预测图。
频域网络 负责抑制复杂的背景干扰。它采用多级 DHPF 模块:
- 首先利用空间网络生成的预测图对图像进行初步增强。
- 然后将图像转换到频域,动态计算并滤除占比较大的低频背景信息(如云层、地面),同时保留高频的目标信息。
最终,将空间网络输出的预测图与频域网络处理后的结果进行融合,得到精确的最终检测结果。整个网络在训练时,会对各阶段的输出进行监督,以确保学习效果。
多尺度空洞对比卷积(MAC)
为应对红外小目标尺寸多变和信噪比低的核心挑战,我们在空间域网络中设计了创新的 MAC 模块。结构如图所示。
核心思想
传统卷积在提取特征时易模糊小目标的微弱信号。MAC模块的核心是进行主动的、显式的对比度增强。它通过设计特殊的卷积核,直接计算并放大局部区域内目标点与周围背景的灰度差异,从而让微弱的小目标在特征图中“凸显”出来。
模块结构
MAC模块采用一个直连分支与三个并行空洞对比卷积(ACC) 分支相结合的结构。三个ACC分支拥有不同的核大小与空洞率,旨在感知不同尺度和信噪比条件下的目标:
| 分支 | 核大小 (s) | 空洞率 (d) | 中心区域 © | 设计目标 |
|---|---|---|---|---|
| ACC₁ | 3 | 1 | 1×1 | 专注检测极微小的目标(仅几个像素) |
| ACC₂ | 5 | 2 | 1×1 | 感知稍大目标,利用空洞扩大感受野,避免信息丢失 |
| ACC₃ | 5 | 2 | 3×3 | 针对低信噪比区域,扩大中心对比区域,在增强目标的同时抑制周边模糊背景 |
工作原理
每个ACC核的运算直观而有效:将核内中心区域(目标候选区)的平均强度,与其周围环形区域(背景参考区)的平均强度相减。
A C C ( X ) = 1 n ∑ ( u , v ) ∈ Y X ( u , v ) − 1 m ∑ ( u , v ) ∈ B X ( u , v ) ACC(X) = \frac{1}{n} \sum_{(u,v) \in Y} X(u,v) - \frac{1}{m} \sum_{(u,v) \in B} X(u,v) ACC(X)=n1(u,v)∈Y∑X(u,v)−m1(u,v)∈B∑X(u,v)
其中, Y Y Y 和 B B B分别代表中心(黄色)与周围(蓝色)像素集合, n n n 和 m m m 为对应像素数量。
- 如果中心是目标(通常比背景更亮),计算结果为较大的正值,目标特征得到显著增强。
- 如果中心是背景,中心与周围强度相近,结果趋于零或负值,背景特征被有效抑制。
技术优势
- 多尺度自适应感知: 三个并行的ACC核构成了一个多尺度感受野体系,使模型无需依赖图像金字塔即可同时有效捕捉从数个像素到上百像素的各类目标。
- 显式对比度增强: 区别于隐式学习,MAC通过明确的数学运算直接提升目标-背景对比度,极大缓解了因目标信噪比过低导致的漏检问题。
- 细节保持与高效感受野: 空洞卷积的引入,使得在不增加参数、不进行下采样的前提下即可获得大范围上下文信息,完美平衡了小目标细节保留与大范围背景抑制的需求。
最终,所有分支的输出在通道维度上进行拼接与融合,并通过轻量的注意力机制进一步优化,输出一张目标显著增强、背景高度抑制的优化特征图,为最终的精准分割奠定坚实基础。
动态高通滤波器(DHPF)
为应对红外图像中普遍存在的大面积低频背景干扰(如天空、云层、地面),我们在频域网络中设计了创新的 DHPF 模块。该模块的核心目标是动态地、渐进地滤除低频背景信息,从而在复杂场景中凸显出微弱的高频小目标。结构如图所示。

核心思想
传统频域方法通常使用固定阈值或静态滤波器,难以适应不同图像多变的频率能量分布。DHPF的创新之处在于“动态”与“渐进”:它根据输入图像自身的频率能量分布,动态计算滤波范围,并分阶段逐步滤除低频成分,实现自适应的背景抑制。
工作流程
DHPF模块以多级串联方式工作,其处理流程如下:
-
目标增强输入:将原始红外图像(IRI)与空间域解码器生成的预测图进行逐元素相乘,初步抑制背景,得到一个目标增强的图像。
F f 0 = F F T ( I R I ⊙ P 4 ′ + I R I ) F_{f}^{0} = \mathrm{FFT}(IRI \odot P'_4 + IRI) Ff0=FFT(IRI⊙P4′+IRI)其中 P 4 ′ P'_4 P4′ 是来自空间域解码器的预测图, ⊙ ⊙ ⊙ 表示逐元素相乘, F F T ( ⋅ ) FFT(⋅) FFT(⋅)为快速傅里叶变换。
-
频率能量计算:计算增强后图像的频率总能量 E C EC EC,作为动态滤波的基准。
E C = ∑ u = 1 H ∑ v = 1 W ∣ F f 0 ( u , v ) ∣ 2 EC = \sum_{u=1}^{H}\sum_{v=1}^{W} |F_{f}^{0}(u,v)|^{2} EC=u=1∑Hv=1∑W∣Ff0(u,v)∣2 -
动态掩码生成:根据预设的能量滤除比例,动态确定滤波掩码的半径。该掩码将滤除以频率域中心(低频区域)为圆心、半径为d的圆形区域内的频率成分。
∑ u = u 0 − d u 0 + d ∑ v = v 0 − d v 0 + d ∣ F f 0 ( u , v ) ∣ 2 ≤ λ × E C \sum_{u=u_0-d}^{u_0+d}\sum_{v=v_0-d}^{v_0+d} |F_{f}^{0}(u,v)|^{2} \leq \lambda \times EC u=u0−d∑u0+dv=v0−d∑v0+d∣Ff0(u,v)∣2≤λ×EC其中 ( u 0 , v 0 ) (u_0,v_0) (u0,v0)为频率域中心坐标。满足上述不等式的最大d值即为当前阶段的滤波半径。
-
渐进式滤波:将生成的二进制掩码应用于频率特征图,滤除对应的低频成分,然后通过逆傅里叶变换(iFFT)将结果转换回空间域。
F λ i = i F F T ( M a s k i ⊙ F f i − 1 ) F_{\lambda_i} = \mathrm{iFFT}(Mask_i \odot F_{f}^{i-1}) Fλi=iFFT(Maski⊙Ffi−1)其中 M a s k i Mask_i Maski 为第 i阶段生成的动态掩码。
为了在滤除背景的同时保护目标信息,我们采用递减的能量滤除比例 λ = [ λ 1 , λ 2 , λ 3 , λ 4 ] = [ 0.8 , 0.4 , 0.2 , 0.1 ] \lambda = [\lambda_1, \lambda_2, \lambda_3, \lambda_4] = [0.8, 0.4, 0.2, 0.1] λ=[λ1,λ2,λ3,λ4]=[0.8,0.4,0.2,0.1]。在早期阶段( λ \lambda λ 较大),大量低频背景被快速抑制;在后期阶段( λ \lambda λ 较小),则进行精细调整,避免过度滤波损伤目标。
技术优势
- 动态自适应:滤波半径d根据每张图像的具体频率能量分布实时计算,而非固定值,极大地提升了模型对不同场景的适应能力。
- 渐进式抑制:多级串联的DHPF模块像“剥洋葱”一样逐层去除低频背景,实现了从粗到细的背景抑制,有效平衡了背景去除与目标保留。
- 全局处理能力:在频域中进行滤波,等同于在空间域进行全局操作,能够有效建模并抑制大范围的、缓慢变化的背景干扰(如大面积云层或地面热辐射)。
- 与空间域互补:频域处理专注于全局背景抑制,与空间域MAC模块的局部对比度增强形成完美互补,共同提升了小目标的信噪比。
损失函数
为了精准指导 HDNet 的训练,使其不仅能正确分割目标,还能对目标的大小与位置信息保持高敏感度,我们采用了 尺度与位置敏感损失(SLS Loss)。
SLS Loss 引导网络生成更符合目标真实几何属性的预测结果。SLS Loss 由两部分加权相加构成:
尺度敏感损失 L S \mathcal{L}_S LS:在传统交并比(IoU)基础上,引入一个动态权重系数 w w w。该系数基于预测区域与真实区域的大小比例及其方差进行计算,当两者尺寸差异较大时,施加更强的惩罚,从而迫使网络学习匹配目标的真实尺度。
L S = 1 − w ∣ P ∩ G ∣ ∣ P ∪ G ∣ \mathcal{L}_S = 1 - w \frac{|P \cap G|}{|P \cup G|} LS=1−w∣P∪G∣∣P∩G∣
w = min ( ∣ P ∣ , ∣ G ∣ ) + V a r ( ∣ P ∣ , ∣ G ∣ ) max ( ∣ P ∣ , ∣ G ∣ ) + V a r ( ∣ P ∣ , ∣ G ∣ ) w = \frac{\min(|P|, |G|) + \mathrm{Var}(|P|, |G|)}{\max(|P|, |G|) + \mathrm{Var}(|P|, |G|)} w=max(∣P∣,∣G∣)+Var(∣P∣,∣G∣)min(∣P∣,∣G∣)+Var(∣P∣,∣G∣)
位置敏感损失 L L \mathcal{L}_L LL:此部分专注于最小化目标中心点的位置偏差。我们将预测目标像素集合与真实目标像素集合的中心点,分别转换到以图像中心为原点的极坐标系下,并计算它们的径向距离差异与角度差异。通过联合优化这两项,确保预测目标在位置上与真实目标精准对齐。
d p = x p 2 + y p 2 , θ p = arctan ( y p x p ) d_p = \sqrt{x_p^2 + y_p^2}, \quad \theta_p = \arctan\left(\frac{y_p}{x_p}\right) dp=xp2+yp2,θp=arctan(xpyp)
d g t = x g t 2 + y g t 2 , θ g t = arctan ( y g t x g t ) d_{gt} = \sqrt{x_{gt}^2 + y_{gt}^2}, \quad \theta_{gt} = \arctan\left(\frac{y_{gt}}{x_{gt}}\right) dgt=xgt2+ygt2,θgt=arctan(xgtygt)
L L = ( 1 − min ( d p , d g t ) max ( d p , d g t ) ) + 4 π 2 ( θ p − θ g t ) 2 \mathcal{L}_L = \left(1 - \frac{\min(d_p, d_{gt})}{\max(d_p, d_{gt})}\right) + \frac{4}{\pi^2}(\theta_p - \theta_{gt})^2 LL=(1−max(dp,dgt)min(dp,dgt))+π24(θp−θgt)2
整体损失函数定义为两者之和:
L S L S = L S + L L \mathcal{L}_{SLS} = \mathcal{L}_S + \mathcal{L}_L LSLS=LS+LL
多层级监督策略:
为了进一步增强模型的鲁棒性并缓解深度网络中的优化问题,我们对 HDNet 中所有四个解码器阶段产生的中间预测图以及最终的融合预测图均施加了 SLS Loss 监督。这种深监督机制确保了网络在每一个特征层级都学习到有效的目标表征。总损失为各层级损失的平均值。
L = 1 5 ( ∑ i = 1 4 L S L S ( P i , ⇓ ( G , 2 i − 1 ) ) + L S L S ( P , G ) ) \mathcal{L} = \frac{1}{5} \left( \sum_{i=1}^{4} \mathcal{L}_{SLS}(P_i, \Downarrow(G, 2^{i-1})) + \mathcal{L}_{SLS}(P, G) \right) L=51(i=1∑4LSLS(Pi,⇓(G,2i−1))+LSLS(P,G))
结果与分析
在三个公开数据集上的综合实验表明,HDNet 在多项关键指标上超越了现有的 26 种先进方法,尤其是在抑制虚警方面表现突出。其创新的 MAC 与 DHPF 模块的有效性得到了充分验证,显著提升了模型对多尺度、低信噪比小目标的检测能力与鲁棒性。

HDNet 在多个数据集上的关键指标显著领先,在 NUAA-SIRST 数据集上实现了 100% 的目标检出率,并在所有数据集上保持了最低的虚警率,验证了其在复杂背景下准确检测多尺度小目标的强大能力。

在极具挑战性的场景(如目标极小、形状不规则、与背景相似或存在亮噪声干扰)中,HDNet 生成的预测图能最清晰地凸显目标轮廓,几乎无背景残留,而其他先进方法则普遍存在明显的漏检或误检现象,直观证明了其卓越的泛化性与鲁棒性。


消融实验系统性地验证了HDNet中每个核心模块的有效性与必要性。实验表明,单独的MAC模块显著提升了对多尺度小目标的感知能力,单独的DHPF模块有效抑制了低频背景干扰;而当两者结合构成完整HDNet时,各项性能指标达到最优。模块内部的对比实验进一步证实,多尺度空洞对比设计、动态渐进滤波策略均为提升模型整体性能的关键创新点。
作者联系方式
Mingzhu Xu(email:xumingzhu@sdu.edu.cn)
Chenglong Yu(email:yucl@mail.sdu.edu.cn)
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)