CVPR | About Network Dissection

会员服务 ·

CVPR | About Network Dissection

2017 年 8 月 7 日 MomentaAI 蒋云飞@Momenta

Momenta公号现推出

CVPR 2017精彩看点系列总结

每日一篇推送，每天收获一点

炎炎夏日，Momenta Paper Reading依旧与你同在

在刚刚结束的CVPR 2017上，来自Momenta的十余位研发人员亲赴夏威夷，见证这场学术盛会。与会期间，高级研究员们与众多学术大牛面对面交流，收获良多。回国后纷纷将学术心得整理成文，以飨读者。

本期带来分享的是Momenta高级研究员蒋云飞，他将为大家解读关于Network Dissection: Quantifying Interpretability of Deep Visual Representations的论文。

Network Dissection: Quantifying Interpretability of Deep Visual Representations 论文解读

本文的是CVPR一篇Oral的文章，作者希望通过寻找到网络中间层与一些语义概念的对应关系，从而实现对于CNN网络潜在的表达能力的定量化分析，归纳发现深度神经网络的本质，从而进一步解释其黑盒特性。

作者首先建立了一个完善的测试数据集，叫做Broden（Broadly and Densely Labeled Dataset），每张图片都在场景、物体、材质、纹理、颜色等层面有pixel-wise的标定。接下来，将该数据集中的每一张图喂给需要分析的网络，拿到每个feature map 上的响应结果，进一步分析该层feature map对应的语义关系，归纳结果。整体流程如下图a所示。

【Unit与Concept的关系】

作者希望将每个卷积核单元（unit）与一些语义上的概念（concept）对应起来，从而使用这些对应关系以及不同concept对应的unit的分布情况来表征该网络的表达能力。

通过如下公式，作者首先定义某一个单元的与语义上的概念的相关程度：

也即，通过计算该层feature map二值化激活区域与不同语义Ground Truth结果的交并比来确定该层所应该属于的语义结果。其中，x代表输入图像，c代表concept（概念），k代表某个单元, Sk(x) 是该单元特征图像feature map A(x)缩放回输入大小后的结果，Mk(x) ≡ Sk(x) ≥ Tk，Mk(x)为大于某个阈值的激活区域。

本文设定对于IoU(k,c) > 0.04，则该单元属于某一个语义概念。如果某个层对应多个语义概念，则取IoU最大的；只有唯一一个语义概念对应的层被称之为特定概念单元（unique concept unit），而这些特定概念层的数量的大小与分布情况，则定量的表示了该网络的可解释性（Interpretability）。

【结果分析】

为了探究网络的可解释性（Interpretability）的是否是与units的排列分布有关，作者对于某一层的所有unit进行random linear combination（下图Q），也即打乱该排布方式，而后将打乱的次序归位（下图Q^(-1)），观察concept的变化情况得到结果。具体如下图所示：

其中，rotation的大小代表了random Q的程度大小，而打乱这些units的排布并不会对于网络的最终输出产生影响，同时也不会改变该网络的表达能力（discriminative power）。

可以从结果中发现，随着rotation的逐渐变大，unique concept unit的数量开始急剧减少，因此CNN网络的可解释性是受到unit的排序的影响的。（写者注，这个结论强依赖于公式(1)的定义，是否是恰当的对于可解释性的描述有待讨论）。

通过对于AlexNet中conv1~conv5层中各单元响应情况的分析，我们可以归纳出: 浅层的单元更倾向于响应简单的纹理、颜色特征，而高层的单元则对于更具体的物体有响应，例如人脸、花朵等等。

在网络结构实验中，作者将常见的网络结构在不同的数据集上进行训练，从中我们可以发现ResNet152的表达能力最强，而不同的训练集对于同一网络的表达能力也有影响，Places 365更多是场景分类，而且图片数量较ImageNet更多，因此网络会有更多的concept响应单元。

训练过程的探究实验中，我们可以发现，网络在训练初期更容易学习到物体的底层的特征，而到后期，逐渐学习到更为高阶的一些物体特征；而在Fine-tune的实验中，作者也发现，随着finetune的进行，不少的层的concept对应关系也会因为finetune数据集不同而发生对应数据集的迁移转变。

Q&A：

在7月23日(夏威夷时间)下午的Poster中，我们有幸遇到了本文的第二作者周博磊童鞋，并且就本文中的一些问题与他进行了深入地交流。

Q: 如何理解文中提到的rotation实验？

A: Rotation指的是对于某个层中的units的组合进行打乱，然后再将打乱的关系还原，从本质上来说，这样一种打乱不会导致最后的结果发生改变，然而当随机打乱的程度加大（rotation变大）则会发生sematic的concepts急剧下降（AlexNet conv5 从72下降为18），因此，unit之间的位置排序是有关系的，或者说sematic不在feature space，而是在unit维度的，也即单个神经元是有意义的，不是像以前说的整个conv是有语义的。

Q:同一个网络，做不同的任务，那么网络的interpretability是否有不同？

A:首先从论文的试验中可以看到不同的数据集会有bias，因此其中的concept就会有不同，例如ImageNet中非常多种类的Dogs，那么concept会有多数偏向于dogs类；在同样的数据集上训练，从理论上来说，如果dominant保持一样，则大部分应该是一致的。

Q: 如何保证结果的正确性？

A: 对于超出测试集的类别，本文的方法确实不能够进行量化分析的，但目前来说这样一个数据集是能找到的最大的了，我们这边也会通过一些方式去扩充这样一个数据集。

Q: 如何确认哪个层更重要，是否有考虑过weights，因为 weights 同样会影响网络的后续输出？

A: 可以通过与concept的IOU的大小来确定层的重要性，IOU越大的话这个层作为某个concept的概率也越大，那么这个层更加重要；对于weights方面，作者表示目前没有考虑。

Q: 如何比较不同网络之间的优劣

A: 根据 interpretability可以去推测某个网络的能力大小，本文认为，interpretability越大的话网络的表达能力越强，性能也越强。

Momenta CVPR干货系列：

第一篇 CVPR | ImageNet冠军模型SE-Net详解

第二篇 CVPR | Deep Layer Cascade论文解读

第三篇 CVPR | 主动卷积论文评析

第四篇 CVPR | 冠军胡杰带你看热点论文

敬请期待，后续还有解读来袭

Momenta，打造自动驾驶大脑。

Momenta致力于打造自动驾驶大脑，核心技术是基于深度学习的环境感知、高精度地图、驾驶决策算法。产品包括不同级别的自动驾驶方案，以及衍生出的大数据服务。

Momenta有世界顶尖的深度学习专家，图像识别领域最先进的框架Faster R-CNN和ResNet的作者， ImageNet 2015、ImageNet 2017、MS COCO Challenge 2015等多项比赛冠军。团队来源于清华大学、麻省理工学院、微软亚洲研究院等，有深厚的技术积累和极强的技术原创力。

编辑标题：“GH+姓名+职位”

简历砸向：talentoverflow@momenta.ai

做你自己的伯乐，来实习，拿4096现金大奖！