谷歌推出理解神经网络的新方法SVCCA

谷歌推出理解神经网络的新方法SVCCA | NIPS论文+代码

2017 年 11 月 29 日 量子位 专注报道AI

夏乙编译自 Google Research Blog
量子位出品 | 公众号 QbitAI

Google Research官方博客今天发文介绍了他们的一篇NIPS论文，提出了快速对两种表示进行比较的方法SVCCA，同时还开源了代码。

以下内容来自Google Research博客对这篇论文的介绍，量子位编译整理：

深度神经网络（DNN）在图像、语言理解和语音识别等领域都取得了史无前例的进展，但也带来了新的挑战。

和以前的机器学习方法相比，DNN在分类时更容易受到对抗样例（adversarial examples）的影响，在强化学习中更容易出现灾难性遗忘（catastrophic forgetting），在生成建模中更容易发生模式崩溃（mode collapse）。

为了构建更好的更强大的基于DNN的系统，模型的可解释性也非常重要。我们特别希望DNN有一个“表示相似性”的概念：我们能不能有效地确定两个神经网络所学到的表示是相同的？

在论文SVCCA: Singular Vector Canonical Correlation Analysis for Deep Learning Dynamics and Interpretability中，我们提出了一个简单、可扩展的方法，来解决这些问题。

我们看到这种方法有两个专门的应用，一是比较不同网络所学习到的表示，二是解释DNN中隐藏层学习到的表示。另外，我们还开源了代码供同行们尝试。

我们设置的关键是将DNN中每个神经元解释为一个激活向量，如下图所示，神经元的激活向量是它基于输入数据产生的标量输出。

△ 当DNN的输入分别为x1、x2、x3时，其中一个神经元的变化

例如，对于50个输入图像，DNN中的一个神经元会输出50个标量值，其中编码着它对每个输入的响应程度。这50个标量值组成了这个神经元的激活向量。（当然，在实际操作中，我们所用的输入远超50个。）

基于这种基本观察和一些其他构想，我们提出了奇异向量典型相关分析（Singular Vector Canonical Correlation Analysis，简称SVCCA），一种采集两组神经元，然后输出从两者中学习到的对齐特征映射的技术。关键的是，这种技术对神经元排列（对比较不同网络至关重要）等表面差异做出了说明，并且可以在其他直接比较方法不管用的情况下检测相似性。

比如说，我们在中型图像分类数据集CIFAR-10上训练两个卷积神经网络net1和net2，然后为了将这种方法的结果可视化，我们将神经元的激活向量与SVCCA的对齐特征输出进行比较。回想一下，一个神经元的激活向量是基于输入图像的原始标量输出。

可视化结果如下图所示，红色表示net1，绿色表示net2；横轴是按类别排列的图像，类别边界用灰色虚线表示，纵轴是神经元的输出值。

上面左图展示了net1和net2中的最高激活（最大欧式范数）神经元。检查最高激活神经元一直是计算机视觉中解释DNN的一种常用方法，但是在上图所示的情况下，虽然net1和net2用相同的任务进行了训练，但两个网络中最高激活神经元没有明确的对应关系。

但是，在应用了SVCCA之后，如上面右图所示，我们可以看到两个网络学习到的潜在表示确实有一些非常相似的特征。注意最上面两行所显示的对齐特征映射，它们几乎是完全相同的，下面两行显示的第二高对齐特征映射也是。而且，右图这些对齐映射和类边界也显示出明确的对应关系，比如说我们可以看到，最上面一对输出在（从左往右数）第8类图像上为负，下面一堆对于第2类和第7类的输出为正。

SVCCA不仅可以用来在不同网络之间作比较，也可以用在同一个网络的不同时间段上，来研究网络中的不同层是如何收敛到最终表示的。

下图就显示了在net1各层的表示相似性随着时间而变化的情况。纵轴表示训练中的层，横轴表示训练完成的层。