学界 | MIT 提出Network Dissection框架，全自动窥探神经网络训练的黑箱

会员服务 ·

学界 | MIT 提出Network Dissection框架，全自动窥探神经网络训练的黑箱

2017 年 7 月 1 日 机器之心

选自MIT News

作者：Larry Hardesty

机器之心编译

参与：李亚洲、黄小天

MIT的新技术帮助阐释了在可视化数据上训练的神经网络的内部机制。

神经网络通过分析大型训练数据集学习如何完成计算任务，它对如今表现优异的人工智能系统有巨大贡献，例如语音识别系统、自动翻译器和自动驾驶汽车。但神经网络是个黑箱，一旦被训练，即使设计者本人也不了解其运作机制：即它们处理了什么数据、如何处理数据。

两年前，来自 MIT CSAIL 实验室的计算机视觉研究团队描述了一种窥视神经网络训练黑箱的方法，从而得以识别视觉场景。该方法提供了一些有趣的洞见，但需要通过亚马逊的 Mechanical Turk 众包服务把数据发送给人类审核员审核。

在今年的 CVPR 大会上，CSAIL 研究员对上述系统进行了升级，将会呈现一种完全自动化的版本。之前的论文给出了对一种神经网络（在一种任务上）的分析，新论文将会给出对四种神经网络（超过 20 种任务）的分析，包括识别场景与物体、为灰度图像上色、解谜等任务。一些新的网络太大，所以使用旧方法分析网络成本太高。

研究人员也在网络上进行了几组实验，不仅揭示了多种计算机视觉、计算摄影算法（computational-photography algorithm）的特性，也为人类大脑的组织方式提供了一些证据。

神经网络之名，来自于对人类神经系统的模拟，有大量相当简单，但密集连接的信息处理节点。和神经元类似，神经网络的节点从临近节点收取信息信号，然后激活释放自己的信号，或者不反应。和神经元一样，节点激活反应的优势是能变化。

在两篇论文中，MIT 研究员修改神经网络，并通过训练完成计算机视觉任务，以便于揭露每个节点针对不同输入图像的反应机制。然后，他们选择 10 张最能激发每个节点的输入图像。

在之前的论文中，研究人员将这些图像发送给 Mechanical Turk 雇佣的工作人员，让他们识别这些图像的共同之处。而在新的论文中，研究人员使用计算机系统完成这一任务。

MIT 研究生 David Bau 说，「我们编目了 1100 多种视觉概念，比如绿色、土质纹理、木材、人脸、自行车轮、雪山等。我们利用他人开发的多个数据集，把它们与标注了密集视觉概念的数据集融合，得到了许多、许多的标签，我们知道哪个像素对应此标签。」

该论文的其他作者包括共同第一作者 Bolei Zhou、MIT 电子工程与计算机科学系教授 Antonio Torralba、CSAIL 首席研究科学家 Aude Oliva、Torralba 的博士学生 Aditya Khosla，他现在是医学计算公司 PathAI 的 CTO。

研究人员也知道哪张图片的哪个像素对应给定网络节点的最强回应。如今的神经网络是被组织进层内的，数据馈送给最低层，然后经过处理传递给下一层，以此类推。有了可视化数据，输入图像打碎为小块，每一块馈送给单独的输入节点。

在他们的一个网络中，来自给层节点的每个回应，研究人员都能追踪到引发模式，从而识别对应的特定图像像素。因为他们的系统能够频繁识别对应确切像素群的标签，因此能非常详细的描述节点行为的特征。

在数据集中，研究人员分层组织了这些视觉概念。每个级别都从最底层的概念开始，比如颜色、纹理，然后是材料、组成部分、物体、场景。通常来讲，神经网络的低层能够对应简单的视觉特性，比如颜色和纹理，高层能够激发对更复杂特性的回应。

但分层也使得研究员能够量化训练神经网络完成特定任务时的重点之处。例如，训练一个神经网络为黑白图像上色，重点是大量识别纹理的节点。再比如，训练一个网络追踪视频画面中的物体，相比于训练进行场景识别的网络，它要更加注重画面识别的节点。在这种情况下，很多节点其实都专注于物体识别。

研究人员的实验也能阐释神经科学方面的难题。关于在受试人类大脑中植入电极从而控制神经失调的研究表明，大脑中的单个神经元激发回应特定的视觉刺激。这一假设原被称为祖母神经元假设（grandmother-neuron hypothesis），更熟悉的名字是神经科学家最近提出的 Jennifer-Aniston 神经元假设。他们在发现多个神经病人的神经元倾向于只回应特定好莱坞明星的描述后，提出了该假设。

许多神经科学家对此解释有所争议。他们认为神经元集群，而非单个神经元，控制着大脑中的感知识别。因此，Jennifer Aniston 神经元只是一堆神经元一起激发回应 Jennifer Aniston 的图像。而且也可能是许多神经元集群共同回应该刺激，只不过没被测试到而已。

因为 MIT 研究员的分析技术是完全自动化的，他们能够测试在训练神经网络识别视觉场景的过程中是否发生了类似的事。除了识别被调整为特定视觉概念的单个网络节点，他们也随机选择了结合节点。然而，节点的结合选择出的视觉概念要比单个节点少很多，大约为 80%。

Bau 说，「在我看来，这表明神经网络实际在尝试近似获取一个祖母神经元。他们并不是想把祖母神经元的概念搞的到处都是，而是想把它分配给一个神经元。这是一个有趣的暗示，大部分人不相信这个架构如此简单。」

论文：Network Dissection: Quantifying Interpretability of Deep Visual Representations

论文链接：http://netdissect.csail.mit.edu/final-network-dissection.pdf

我们提出了一种名为 Network Dissection 的通用框架，能够通过评估单个隐藏单元与一系列语义概念间的对应关系，来量化 CNN 隐藏表征的可解释性。给出一个 CNN 模型，我们提出的该方法利用大量视觉概念的数据集来评分每个中间卷积层隐藏单元的语义。这些带有语义的单元被赋予了大量标签，从物体、组成部分、场景到纹理、材料和颜色。我们使用已提出的方法测试了这一假设：单元的可阐释性等同于其随机线性结合；接着当被训练解决不同的监督和自监督训练任务时，我们应用我们的方法对比了不同网络的潜在表征。我们进一步分析了训练迭代的影响，对比了使用不同初始化进行训练的网络，检查了网络深度和宽度的影响，并测量了 dropout 和批归一化在深度视觉表征的可阐释性上产生的影响。我们证明了已提出的方法可以揭示 CNN 模型和训练方法（超越了对其判别力的测量）的特性。