论文笔记----Network Dissection:Quantifying Interpretability of Deep Visual Representations（深层视觉表征的量化解释）

论文地址：https://arxiv.org/pdf/1704.05796.pdf论文提出了一种名为“Network Dissection”的通用框架，通过评估单个隐藏单元与一系列语义概念间的对应关系，来量化 CNN 隐藏表征的可解释性。这种方法利用大量的视觉概念数据集来评估每个中间卷积层隐藏单元的语义。这些带有语义的单元被赋予了大量的概念标签，这些概念包括物体、组成部分、场景、纹理、材料和颜色等

刘星星儿

764人浏览 · 2020-09-15 16:46:28

刘星星儿 · 2020-09-15 16:46:28 发布

论文地址：https://arxiv.org/pdf/1704.05796.pdf

论文提出了一种名为“Network Dissection”的通用框架，通过评估单个隐藏单元与一系列语义概念间的对应关系，来量化 CNN 隐藏表征的可解释性。

这种方法利用大量的视觉概念数据集来评估每个中间卷积层隐藏单元的语义。这些带有语义的单元被赋予了大量的概念标签，这些概念包括物体、组成部分、场景、纹理、材料和颜色等。

论文使用该方法测试了“单元的可解释性等同于单元的随机线性结合”的假设。该方法可以揭示 CNN 模型和训练方法的特性，而不仅仅是衡量他们的判别能力。

通过观察大型深度神经网络中的隐藏单元，论文发现：人类可解释的概念有时候会以单一隐藏变量的形式出现在这些网络中：当网络未受限于只能用可解释的方式分解问题时，就会出现这种内部结构。这种可解释结构的出现意味着，深度神经网络也许可以自发学习分离式表征(disentangled representations)。众所周知，神经网络可以学习某种编码方式，高效利用隐藏变量来区分其状态。如果深度神经网络的内部表征是部分分离的，那么检测断分离式结构并读取分离因数可能是理解这种机制的一种方法。

论文在各种使用物体和情景识别训练的 CNN(AlexNet、VGG、GoogLeNet和ResNet)上对这种方法进行了评价，并证明了：显现出的可解释性是表征的某种轴对齐属性，轴的旋转可以在不影响判别能力的条件下毁坏这种可解释性。我们进一步探究了训练数据集影响可解释性的方式，并研究了诸如dropout 和批规范化(batch normalization)这样的训练方法，以及主要任务不同的监督训练。

论文大致做法是准备了一个带有不同语义概念的图片数据库，里面每张图都有像素层次的标定，如颜色，纹理，场景，物体部分，物体等，然后我们把每个神经元在图像上的激活响应当做对这些概念进行语义分割(Semantic segmentation)，然后看每个神经元对哪个语义概念分割得最好，那么这个神经元就是在检测这个语义概念。

论文对深层视觉表现的可解释性的测量分为三个步骤：
1.确定一系列人类标记的视觉概念。
2.收集隐藏变量对已知概念的响应。
4.量化隐藏变量的对齐——概念对。

作者将一个带有不同语义概念的图片数据库（标记了不同的属性）输入AlexNet、GoogLeNet、VGG、ResNet等CNN训练模型进行训练，观察比较了不同神经网络的可解释性的概念分布差异；作者还分析了不同supervision，以及训练过程中网络的变化和各种regularization，如batchnorm, dropout，对网络内部表征的影响。

可解释的隐藏神经元是否与特征空间构成特定的映射？
一个语义概念可能被多个神经元检测到，一个神经元也可能检测多个语义。
神经网络训练中什么因素会影响可解释的程度？
1.可解释的度量：CNN（某层）中独特检测器（Unique detector）的数量（神经元最对应语义的 IoU > 0.04时为独特检测器）；
2.网络深度：CNN 中越往后层比前面的层可解释性更高，同时可解释的语义等级也更高（浅层可检测颜色、纹理，深层可检测物体、场景）；跨网络结构比较时，网络结构越深，最后层可解释性越高；
3.图片角度：保持分类能力不变下旋转图片，旋转角度越大，CNN 可解释性越低（也说明了分类辨别力与可解释性相互独立）；
4.训练用的数据集：数据集内容越丰富，训练出的 CNN 可解释性越高；
5.训练参数：迭代次数大程度上与可解释性成正比。