Group-CAM：分组加权视觉解释深度卷积网络

引言当前解释深度卷积神经网络越来越引起了AI研究者的关注，因为它有助于理解深度神经网络的内部机制和做出特定决策的原因。在计算机视觉领域，可视化和理解深层网络最流行的方法之一是生成Saliency Map，突出与网络决策相关的显著区域。然而，现有方法生成的Saliency Map要么只反映网络预测的微小变化，要么计算显著图的计算过程的时间复杂度较高。最近南京大学的一篇论文收录于CVPR2021，该

鬼道2022

740人浏览 · 2021-05-27 16:15:43

鬼道2022 · 2021-05-27 16:15:43 发布

1 引言

当前解释深度卷积神经网络越来越引起了AI研究者的关注，因为它有助于理解深度神经网络的内部机制和做出特定决策的原因。在计算机视觉领域，可视化和理解深层网络最流行的方法之一是生成Saliency Map，突出与网络决策相关的显著区域。然而，现有方法生成的Saliency Map要么只反映网络预测的微小变化，要么计算显著图的计算过程的时间复杂度较高。最近南京大学的一篇论文提出了一种高效的Saliency Map生成方法，称为组分数加权类激活映射(Group-CAM)。该论文作者提供了相应的代码，感兴趣的可以下载下来跑一跑。
在这里插入图片描述
论文链接：https://arxiv.org/abs/2103.13859
论文代码：https://github.com/wofmanaf/Group-CAM

2 Group-CAM

2.1 Saliency Map

在计算机视觉领域中，Saliency Map最先由Simonyan等人提出，它被用于图像分类模型的可视化。给定一个图像 $I_0$ ，类别 $c$ ，和类别预测分数函数 $S_c(I)$ ，类别预测分数 $S_c(I)$ 输入样本 $I_0$ 中像素点d的相关程度的计算公式可以表示为 $Saliency_map=∂Sc∂I∣I0Saliency\_map=\left.\frac{\partial S_{c}}{\partial I}\right|_{I_{0}}$
Saliency Map的作用就是显示出样本中哪些特征对预测分数影响程度更大。

2.2 论文算法介绍

如下图所示为 $Group−CAM\mathrm{Group-CAM}$ 的模型流程图，首先用特征图和重要性权重 $w^c$ 的线性组合来提取激活。然后激活被分成组，并在去噪之前沿每个组中的通道维度求和，以生成初始掩模 $Ml′M^{\prime}_{l}$ 。输入图像 $I_0$ 按元素与 $Ml′M^{\prime}_{l}$ 相乘，然后用有意义的扰动进行变换。扰动的图像然后被馈送到网络。输出显著图可以被计算为所有 $Ml′M^{\prime}_{l}$ 的加权和，其中权重 $αlc\alpha^{c}_{l}$ 来自对应于各个扰动输入的目标类别的置信度得分。
在这里插入图片描述

2.3 初始化掩膜Masks

令 $I0∈R3×H×WI_0 \in \mathbb{R}^{3\times H \times W}$ 是一张输入图片， $F\mathcal{F}$ 是深度神经网络，其中 $Fc(I0)\mathcal{F}_c(I_0)$ 是输入图片在类 $c$ 中的预测分数。为了获得目标卷积层的类别区分初始组掩码，作者计算 $Fc(I0)\mathcal{F}_c(I_0)$ 相对于第 $k$ 个特征图 $A^{k}$ 的梯度，这些梯度是高度和宽度维度上的全局平均值目的是为了获得神经元重要性权重：
$wkc=1Z∑i∑j∂Fc(I0)∂Aijk(I0)w^{c}_k=\frac{1}{Z}\sum\limits_{i}\sum\limits_{j}\frac{\partial \mathcal{F}_c(I_0)}{\partial A^{k}_{ij}(I_0)}$ 其中 $Z$ 表示的是特征图 $A^{k}$ 的像素点的数目。
假定 $K$ 是目标层特征图的通道个数，把所有的特征图和神经元重要性权重分成 $G$ 组。然后，每组中的初始掩码计算如下 $Ml=ReLU(∑k=l×g(l+1)×g−1(wkcAk))M_l=\mathrm{ReLU}(\sum\limits_{k=l\times g}^{(l+1)\times g-1}(w^{c}_kA^k))$ 其中， $\in \{0,1,\cdots,G-1\}$ ， $g = K / G$ 是每组特征图的个数。 $M_l$ 是特征图和梯度的组合，这意味着 $M_l$ 在视觉上可能有噪声，因为DNN的梯度由于ReLU中平坦的零梯度区域而趋于消失。所以不适合直接应用 $M_l$ 作为初始掩膜。为了解决这个问题，作者使用去噪函数来过滤 $M_l$ ，其中去噪函数可以表示为 $ϕ(mi,j,θ)={mi,j,ifmij>p(Ml,θ)0,otherwise\phi(m_{i,j},\theta)=\left\{\begin{array}{ll}m_{i,j},&\mathrm{if}\quad m_{ij}>p_(M_l,\theta)\\0,&\mathrm{otherwise}\end{array}\right.$ 与其将所有像素设置为二进制值，不如为激活图生成更平滑的Mask。作者通过利用最小最大归一化将 $M_l$ 的原始值缩放到 $[0, 1]$ 中， $Ml′=Ml−min⁡(Ml)max⁡(Ml)−min⁡(Ml)M^{\prime}_{l}=\frac{M_l-\min(M_l)}{\max(M_l)-\min(M_l)}$ 用双线性插值对 $Ml′M^{\prime}_{l}$ 进行上采样，达到相同的分辨率 $I_0$ ，以屏蔽输入。

2.4 Saliency Map生成

作者使用模糊信息替换未保留的区域(0值的像素)，然后对该图像执行分类以测量初始屏蔽的重要性。模糊图像可以通过以下方式计算 $I_{\ell}^{\prime}=I_{0} \odot M_{\ell}^{\prime}+\tilde{I}_{0} \odot\left(1-M_{\ell}^{\prime}\right)$ 其中， $I^0=guassian_blur2d(I0,ksize,sigma)\hat{I}_0=guassian\_blur2d(I_0,ksize,sigma)$ 是与 $I_0$ 形状相同的图像。
保留区域 $I0⊙Ml′I_0\odot M^{\prime}_{l}$ 的贡献值 $a_l^c$ 的计算公式为： $\alpha_{\ell}^{c}=\mathcal{F}_{c}\left(I_{\ell}^{\prime}\right)-\mathcal{F}_{c}\left(\tilde{I}_{0}\right)$ 最终的Saliency Map是具有权重 $alca^{c}_l$ 的初始掩模的线性组合，其计算公式为： $\mathcal{L}_{Group-CAM }^{c}=\operatorname{ReLU}\left(\sum_{\ell} \alpha_{\ell}^{c} M_{\ell}^{\prime}\right)$
根据上述原理所述，Group-CAM的算法流程图重新整理成如下形式：在这里插入图片描述

3 实验结果

作者定性地比较的方法包括基于梯度的方法如引导反向传播， $Inte−grateGrad\mathrm{Inte- grateGrad}$ ， $SmoothGrad\mathrm{SmoothGrad}$ ，基于区域的方法如 $RISE\mathrm{RISE}$ ， $XRAI\mathrm{XRAI}$ ，和基于激活的方法如 $Grad−CAM\mathrm{Grad-CAM}$ ， $Score−CAM\mathrm{Score-CAM}$ ，以验证 $Group−CAM\mathrm{Group-CAM}$ 的有效性。
如下图所示， $Group−CAM\mathrm{Group-CAM}$ 正确地给出了“类别的解释位置，结果表明， $Group−CAM\mathrm{Group-CAM}$ 比基于区域的方法和基于激活的方法更有说服力，并且比基于梯度的方法包含更少的噪声。
在这里插入图片描述
作者通过进行删除和插入测试，以评估不同的Saliency Map方法。删除度量背后的直觉是，删除与类别最相关的像素/区域将导致分类分数显著下降。另一方面，插入度量从模糊的图像开始，逐渐重新引入内容，这产生了更真实的图像。如下图所示， $Grad−CAM\mathrm{Grad-CAM}$ 、 $Score−CAM\mathrm{Score-CAM}$ 和 $Group−CAM\mathrm{Group-CAM}$ 根据删除和插入曲线为代表性图像生成Saliency Map。在插入曲线中，更好的解释是预计预测得分快速增加，而在删除曲线中，预计分类置信度下降更快。可以发现 $Grad−CAM\mathrm{Grad-CAM}$ 表现的更出色。
在这里插入图片描述
在ImageNet-1k上运行时间方面的比较评估中可以发现 $Group−CAM\mathrm{Group-CAM}$ 和 $Grad−CAM\mathrm{Grad-CAM}$ 的平均运行时间都很少。

定位精度的计算公式可以表示为： $Acc=#Hits#Hits+#MissesAcc=\frac{\#Hits}{\#Hits+\#Misses}$ 如果最显著的像素位于对象的带注释的边界框内，则被视为命中。从下表可知， $Group−CAM\mathrm{Group-CAM}$ 的平均精度要高于其它的方法。
在这里插入图片描述
下图是微调后的ResNet-50生成的Saliency Map可视化。随着ResNet-50性能的提高，由 $Group−CAM\mathrm{Group-CAM}$ 生成的Saliency Map的噪声降低，并更多地关注重要区域。