CVPR 2025 |缺陷检测新纪元！双域Transformer刷新三大数据集SOTA!

此外，模型的性能在多大程度上依赖于所选的小波基函数，以及原型数量的设置，也是未来可以深入研究的方向。例如，在ESDIs-SOD数据集上，相比于同样是基于查询的先进方法PEM，本文方法在平均绝对误差（M）上降低了13.6%，在加权F-measure（上图（图4）的F-measure曲线显示，在绝大多数阈值下，本文方法的曲线都位于其他方法的上方，表明其在各种置信度下都能保持稳健和优越的性能。在空间域，

CV实验室

1260人浏览 · 2025-10-31 16:45:56

CV实验室 · 2025-10-31 16:45:56 发布

在智能制造领域，如何利用机器精准地找出产品表面的微小瑕疵，如划痕、裂纹等，是一个至关重要的问题。这项技术被称为表面缺陷检测（Surface Defect Detection）。目前，许多检测方法在面对背景复杂或者瑕疵本身非常微弱（例如细小的裂纹、与背景颜色相近的污点）时，常常会发生漏检或误报，检测效果并不理想。这是因为传统方法在处理图像特征时，无法有效区分真正的缺陷细节和背景噪声。

为了攻克这一难题，本文提出了一种名为小波和原型增强的查询式Transformer模型。该模型巧妙地从两个维度增强了从图像中学习信息的能力：它既能在频率域利用小波分析捕捉缺陷的边缘细节，又能通过原型学习在空间域聚焦于关键的缺陷区域，从而忽略背景干扰。实验结果表明，该方法在多个公开的缺陷检测数据集上都取得了目前最先进的检测效果，能够更准确、更完整地定位出各类表面缺陷。

另外我整理了CV入门必读资料包+CVPR 2020-2025论文、源码合集，感兴趣的可以自取哦！希望能帮到你！

原文资料这里！

二、论文基本信息

论文标题: Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection (小波和原型增强的基于查询的Transformer用于像素级表面缺陷检测)
作者姓名: Feng Yan, Xiaoleng Jiang, Yang Lu, Jiale Cao, Dong Chen, Mingliang Xu
单位:郑州大学、天津大学等
发表日期与会议/期刊来源: CVPR 2025
论文链接: https://openaccess.thecvf.com/content/CVPR2025/papers/Yan_Wavelet_and_Prototype_Augmented_Query-based_Transformer_for_Pixel-level_Surface_Defect_CVPR_2025_paper.pdf
代码链接: https://github.com/yfhdm/WPFormer

三、主要贡献与创新

提出WPFormer模型，首次将频率域信息和空间原型学习结合，用于增强查询式缺陷检测。
设计了小波增强交叉注意力（WCA），利用小波分解引导模型关注缺陷的高频细节。
设计了原型引导交叉注意力（PCA），通过学习关键特征原型来减少背景信息的干扰。
在三个大型缺陷数据集上进行了充分实验，验证了模型在复杂场景下的卓越性能。

四、研究方法与原理

该模型的核心思路是：让一组可学习的查询（query）向量，通过一个双域Transformer解码器，同时从图像特征的频率域和空间域中吸取精华信息，最终生成精准的缺陷掩码。

Figure 2.

上图展示了模型的整体架构（图2）。模型首先使用一个骨干网络（PVTv2）提取图像的多尺度特征 {F_i}。然后，一组可学习的查询 $Q$ 会进入一个双域Transformer（D2T）解码器中进行迭代优化。这个解码器是本文的核心，它包含两个关键模块：WCA和PCA。

小波增强交叉注意力 (Wavelet-enhanced Cross-Attention, WCA)

工业缺陷，尤其是微小的裂纹和划痕，在图像的高频部分会表现得更为明显。但高频信息中也混杂着大量背景噪声。WCA模块（图2(a)）的目的就是提纯高频信息，让查询关注到真正的缺陷细节。

它的具体流程如下：

频率分解：对于输入的图像特征 $F_i$ ，使用哈尔小波变换（wavelet transform）将其分解为包含物体基本结构的低频部分 $F_l^{fre}$ 和包含纹理细节的高频部分 $F_h^{fre}$ 。

$F_l^{fre} = F_{LL}$
$F_h^{fre} = F_{LH} + F_{HL} + F_{HH}$
高频调制：为了抑制高频分量中的噪声，WCA设计了一个多尺度上下文模块（MSCM），它通过分析低频和高频分量的关系，生成全局和局部的通道注意力权重 $W_c^g$ 和 $W_c^l$ 。这些权重会作用到高频分量上，实现对噪声的抑制和对有效细节的增强。

$W_c^g = \text{Linear}(\delta(\text{Linear}(\text{GAP}(F_h^{fre} + F_l^{fre}))))$
$W_c^l = \text{Linear}(\delta(\text{Linear}(F_h^{fre} + F_l^{fre})))$
$F_h^{fre'} = \sigma(W_c^g + W_c^l) \odot F_h^{fre}$
其中， $G A P$ 表示全局平均池化， $\odot$ 表示逐元素相乘。
信息交互：最后，将调制后的高频特征 $F_h^{fre'}$ 与低频特征 $F_l^{fre}$ 结合，作为交叉注意力（cross-attention）层的Key和Value，来更新输入的查询 $Q_{in}$ 。

$\text{Norm}(Q_{in} + \text{Attention}(Q_{in}, F'^{fre}))$
这样，查询就吸收了经过提纯的、富含缺陷细节的频率信息。

原型引导交叉注意力 (Prototype-guided Cross-Attention, PCA)

在空间域，如果让查询与图像的所有像素特征进行交互，会引入大量无关的背景信息，干扰模型对缺陷的判断。PCA模块（图2(b)）的核心思想是，先从图像特征中自动“聚类”出若干个代表性的特征中心，即“原型”（prototype），再让查询与这些浓缩了精华信息的原型进行交互。

其具体流程如下：

原型学习：通过一个原型学习单元（PLU），将图像特征 $F_i$ 动态地聚合成 $M$ 个原型 $F_{pro}$ 。这个过程是自适应的，模型会自动学习如何从特征图中提取最有代表性的信息。

$F_{pro} = \text{Softmax}(F'_i)^T \otimes F_i$
如下图（图3）所示，原始特征图（左侧）包含了大量背景噪声，而经过原型激活后的特征图（右侧）能够更准确地聚焦于缺陷区域。

Figure 3.

查询更新：得到的原型 $F_{pro}$ 与输入的查询 $Q_{in}$ 结合，同样通过一个MSCM模块生成多尺度注意力权重，并用这些权重来精炼查询。

$\text{Norm}(\sigma(W_c^g + W_c^l) \odot Q_{in} + Q_{in})$
通过这种方式，查询只与少数浓缩了关键信息的原型进行交互，极大地减少了背景冗余信息的干扰，使得查询的更新更加高效和精准。

最终，经过多层D2T解码器优化的查询，会送入分割头，结合高分辨率特征图 $F_1$ 生成最终的缺陷预测掩码。

原文资料这里！

五、实验设计与结果分析

数据集: 实验在三个大规模公开数据集上进行：ESDIs-SOD（包含14类共4800张带钢表面缺陷图像），CrackSeg9k（包含8051张不同表面上的裂纹图像），以及ZJU-Leaper（包含超过23000张织物缺陷图像）。
评测指标: 使用了多种标准指标来评估分割效果，包括平均绝对误差（M）、加权F-measure（ $F^w_\beta$ ）、S-measure（ $S_\alpha$ ）、平均F-measure（ $mF_\beta$ ）和平均E-measure（ $mE_\xi$ ）。M指标越低越好，其他指标越高越好。

对比实验

本文将所提出的WPFormer与17种最先进的方法进行了比较。

Table 1.

从上表（表1）可以看出，在所有三个数据集的几乎所有指标上，本文提出的方法（Ours）都取得了最佳性能。例如，在ESDIs-SOD数据集上，相比于同样是基于查询的先进方法PEM，本文方法在平均绝对误差（M）上降低了13.6%，在加权F-measure（ $F^w_\beta$ ）上提升了1.1%。这证明了双域增强策略的巨大优势。

Figure 4.

上图（图4）的F-measure曲线显示，在绝大多数阈值下，本文方法的曲线都位于其他方法的上方，表明其在各种置信度下都能保持稳健和优越的性能。

可视化对比

Figure 5.

上图（图5）直观地展示了不同方法的检测效果。例如，在第1行和第4行，由于缺陷与背景极为相似，许多方法都无法检测出完整的缺陷区域。在第2、3、5行，其他方法出现了将背景误判为缺陷的情况。而对于第3行和第6行中的细微裂纹，其他方法也存在漏检。相比之下，本文的方法（Ours）能够生成更完整、更精确的预测结果，无论是面对弱小目标还是复杂背景，都表现出色。

消融实验

消融实验旨在验证模型中每个组件的有效性。

Table 2.

上表（表2）对比了不同的交叉注意力机制。结果显示，单独使用WCA或PCA都能带来性能提升，而将两者结合（Both）时效果最好。这证明了在频率域和空间域同时增强查询的必要性和有效性。

Table 3.

上表（表3）还进行了更细致的分析。表3(a)表明，使用16个查询时模型性能达到最佳。表3(b)验证了在WCA模块中，使用本文提出的“调制融合”（Modulation）比简单的“相加融合”（Add）更能有效抑制噪声，提升性能。表3©则说明在PCA模块中，同时捕捉原型和查询之间的“全局”和“局部”关系，比只使用单一尺度的关系效果更好。

六、论文结论与评价

总的来说，这篇论文提出了一种名为WPFormer的新型表面缺陷检测模型。它的核心思想非常巧妙，通过设计一个双域Transformer解码器，让模型在学习过程中，既能像专家一样利用小波工具分析图像的频率，从而捕捉到微小的缺陷边缘细节（通过WCA模块），又能像一个聪明的筛选器，自动从复杂的背景中提炼出与缺陷最相关的特征原型，避免被噪声干扰（通过PCA模块）。

这项研究为缺陷检测领域带来了重要的启示。它证明了仅仅在空间域上做文章是不够的，结合频率域的先验知识能为解决弱小目标的检测问题提供新的有效途径。这种“双域增强”的思想不仅可以用于缺陷检测，也可能被应用到其他计算机视觉任务中，如伪装物体检测、医学图像分割等，具有很强的迁移价值。

该方法的优点在于其创新性和有效性，通过精巧的模块设计，实实在在地解决了行业痛点，并且实验支撑非常扎实。然而，该方法也存在一些可以探讨的方面。例如，引入小波变换和原型学习增加了模型的计算复杂度，可能会影响检测的实时性，在追求极致速度的工业流水线上可能需要进一步优化。此外，模型的性能在多大程度上依赖于所选的小波基函数，以及原型数量的设置，也是未来可以深入研究的方向。总而言之，这是一项设计精良、效果显著且具有启发性的工作。