突破！DeepMind成功使用认识心理学解释深度神经网络黑盒！

2017 年 6 月 29 日 全球人工智能

来源：deepmind

导读：DeepMind最近通过认识心理学研究深度神经网络案例：我们从发展心理学中选择了一个完善的分析，解释了儿童如何学习对象的单词标签，并将该分析应用于DNN。使用由原始认知心理学实验启发的刺激数据集，我们发现在ImageNet上训练的最先进的一次学习模型显示出与人类观察到的相似的偏好：他们更喜欢根据形状而不是颜色对对象进行分类。这些结果证明了认知心理学工具能够揭示DNN的隐藏计算属性，同时为人类学习提供了一个计算模型。

深层神经网络已经学会了一系列惊人的任务，从识别和推理图像中的对象到玩Atari and Go的超人等级。随着这些任务和网络架构变得越来越复杂，神经网络学习的解决方案变得越来越难以理解。

这被称为“黑匣子”问题，随着神经网络在越来越多的现实世界应用中的使用，打开黑盒了解其原理就越来越重要。

在DeepMind，我们正在努力寻找用于理解和解释这些系统的工具。在我们最近发表在ICML的最新文章中，我们提出了一种采用认知心理学方法来理解深度神经网络的这个问题的新方法。认知心理学测量行为来推断认知机制，并包含详细描述这种机制的大量文献，以及验证这些机制的实验。随着我们的神经网络在特定任务上接近人类的表现，认知心理学的方法正越来越与黑匣子问题相关。

“黑盒子”信用：Shutterstock

为了证明这一点，我们的文章报告了一个研究案例：我们使用一个旨在阐明人类认知的实验来帮助我们了解深层网络如何解决图像分类任务。

研究结果表明，认知心理学家在人类中观察到的行为也被这些深度网络所显示。此外，结果揭示了网络如何解决分类任务的有用和令人惊讶的见解。准确说，案例研究的成功证明了使用认知心理学了解深度学习系统的潜力。

测量一次性学习模型中的形状偏差

在我们的案例研究中，我们考虑了孩子如何识别和标注物体 - 发展认知心理学的丰富学习领域。孩子们从一个例子中猜出一个单词的意思的能力 - 所谓的“一键式单词学习” - 轻而易举地认为这是一个简单的过程。然而，哲学家Willard Van Orman Quine的经典思想实验说明了这这里面的复杂性：

一个领域的语言学家去到另一种文化环境，其语言完全不同于我们自己的文化。语言学家正在尝试从一个有用的母语者那里学习一些话，当一只兔子出现的时候。母语者声明“gavagai”，语言学家可以推断出这个新词的含义。语言学家面临着大量可能的推论，其中包括“gavagai”是指兔子，动物，白色的东西，特定的兔子，或“未被取出的部分兔子”。有无限可能的推论。人们如何选择正确的那个？

“Gavagai”信用：“Misha Shiyanov / Shutterstock”

五十年后，我们面临着同样的问题，即可以进行一次性学习的深度神经网络。考虑我们在DeepMind的同事开发的神经网络匹配网络。该模型使用最近在注意力和记忆力方面的进步来实现使用类中唯一示例的ImageNet图像的最先进的性能。但是，我们并不知道网络对这些图像进行分类的假设。

为了阐明这一点，我们考察了发展心理学家（1）的工作，他们发现证据表明儿童通过应用归纳偏差来消除许多不正确的推论，找出正确的推论。这种偏见包括：

整个对象的偏见，孩子们认为一个词是指整个对象，而不是它的组成部分（消除了Quine’s 对未被取消的兔子部分的关注）
孩子们认为一个单词是指一个对象所属的基本类别（排除Quine’s 恐惧所有动物可能被选为“兔子”）的分类学偏好）
外形偏差，由于孩子区分名词的意思是基于物体的形状，而不是颜色或纹理（缓解Quine’s 的焦虑，所有白色的东西可能会被指定为“兔子”的意思）

选择测量我们神经网络的形状偏差，因为在人类学习这种偏见的研究中，有一个特别大的研究对象。

我们用来测量我们深度网络中的形状偏差的认知心理学刺激的例子。这些图像由印第安纳大学认知发展实验室的琳达·史密斯提供。

我们采用的经典形状偏差实验如下：我们向深度网络呈现三个对象的图像：探针对象，形状匹配对象（相同形状，不同颜色）和颜色 - 匹配对象（相同颜色，不同形状）。然后，我们测量形状偏好作为探测图像被分配与形状匹配图像相同的标签而不是颜色匹配图像的时间的比例。

我们在印第安纳大学认知发展实验室中使用人体实验中使用的对象图像。

我们与匹配网络的认知心理学实验示意图。匹配网络将探测图像（左）与图像'A'（顶部，中间）或图像'B'（顶部，右侧）匹配。输出（右下）取决于匹配网络中形状偏差的强度。

我们使用我们的深度网络（匹配网络和初始基线模型）尝试了这个实验，发现像人类一样，我们的网络对对象形状而不是颜色或纹理有很强的偏好。换句话说，它们具有“形状偏好”。

这表明匹配网络和Inception分类器使用归一化偏差来消除不正确的假设，从而使我们能够清楚地了解这些网络如何解决一键式单词学习问题。

观察形状偏好不是我们唯一有趣的发现：

我们观察到，在我们网络的早期训练过程中，形状偏好逐渐出现。这让人联想到人类形状偏好的出现：心理学家已经观察到，幼儿的形状偏好比年龄较大的孩子小，成年人显示出最大的偏好。
我们发现，根据用于初始化和训练的随机种子，我们的网络有不同的偏好水平。这告诉我们，在深入学习系统进行实验时，我们必须使用大量训练有素的模型来得出有效的结论，正如心理学家已经学会了根据单个主题得出结论一样。
我们发现，即使形状偏好差异很大，网络也实现了相同的单次学习，表明不同的网络可以为复杂的问题找到各种同等有效的解决方案。

在标准神经网络架构中发现这种以前无法识别的偏见说明了使用人工认知心理学解释神经网络解决方案的潜力。在其他领域，情景记忆文学的见解可能对于了解情景记忆体结构是有用的，并且来自语义认知文献的技术可能有助于理解最近的概念形成模型。其他领域的丰富心理学文献，有可能给我们强大的新工具来解决“黑匣子”问题，更深入地了解神经网络的行为。

附：论文的主要介绍＋图表＋结论截图：