1、人脑与类脑是否采用了同样的表征来完成任务图灵测试从本质上来讲,是基于行为主义的逻辑——一个机器只要它在行为上达到人的水平,那么它就具有跟人一样的智能。但是从认知科学的角度,一个更本质的测试应该是:一个智能机器,是否具有与人一样的认知过程。例如,AI如今能够实现物体识别、目标检测等任务,但是AI使用的内部表征和人类是不是一样的?在这个研究,我们将具体回答两个问题:深度神经网络使用什么表征?这种表征和人类相似吗?我们这里呈现一个性别辨别的任务,下图中左边的是女性,右边的是男性。但是如果我问,你是靠什么特征来进行判断的?他们头发的长短吗?他们的眼睛大小吗?他们脸型的外轮廓吗?还是什么?你可以反省自己到底是靠什么做的判断。你会感受到这个任务很难,辨别性别很容易,但是理解究竟用哪些特征来做是挺难的。因为我们进行面孔认知加工是在无意识中完成的,不能被我们意识所觉察到。这里,我们采用认知神经科学的方法,即反向相关的方法(reverse correlation),通过结果来回推内部表征。首先,我们分别把女性面孔和男性面孔取平均,得到女性和男性的平均脸。当我们从女性平均脸平滑的过渡到男性平均脸的时候,大家感受一下效果。这动画给人一个感觉,你对性别的判断类似二分法。开始时是一张女性脸,后面是一张男性脸,中间是感知边界,我们心理的感受并不是随着图像的线形变化而发生线性变化的,而是二分法,前半部分全是女性,后半部分全是男性。这里,我们找到感知边界,生成一张中性脸。接下来,我们训练一个能识别性别的VGG-Face网络。这个网络已经经过预训练,我们只做迁移学习,即把最后一层进行微调,对男性和女性的人脸做识别训练。很快,对性别识别的准确率就达到了百分之百。我们把中性的面孔拿出来加上随机噪音,然后再把这张照片输入VGG-Face,让它进行分类。添加噪音可以使中性脸被识别为男性脸或女性脸。我们识别了2万张照片,每张照片基底图是一样的,而添加的噪音不一样,这样我们可以得到一组被VGG-Face识别为女性的照片和一组识别为男性的照片。我们把这些照片都贴上了标签,然后把原来的基底图去掉,只留下噪音,并按照性别的标签分别叠加在一起。下图就是VGG-Face把面孔识别为女性的面孔特征图。原来的随机噪音看上去无规则,但是通过reversecorrelation就可以从噪音中提取出结构的信息。我们大致看到,这些信息主要集中在眼睛、鼻子和嘴这些地方,这些特征是VGG-Face将面孔判断女性的关键信息。同样,我们可以把被判断为男性的噪音叠加在一起,得到关于男性的一张特征图。简单对比可以发现,判断为女性的特征图和判断为男性的特征图是不一样的,这两张图的模式很复杂。 我们把女性特征图和男性噪音特征图进行相减,得到识别特征图,这张识别特征图就是VGG-Face完成性别识别任务的内部表征,它认为这是把男性和女性分开的关键信息。我们把基底图即中性脸叠加上去,可以看到噪音特征图的极值点大致分布在眼睛和鼻子外侧,以及人中、嘴唇的下沿。我们接下来把这叠加到基底图上,我们就得到了一个标准的男性脸。反之,如果我们把基底图减去这张识别特征图,就会得到一个标准的女性脸。所以我们通过这一系列操作就得到了VGG-Face用什么特征来进行性别判断。如果把VGG-Face换成人,结果会如何?我们找人看了这2万张图片。在大部分情况之下,被试会说“我怎么知道他是男性还是女性?”我们说“没关系,你猜就是了,跟着感觉走,你觉得它是女性就按F,觉得是男性就按M”。于是被试带着困惑、不解和劳累,把这个实验给做完了。这是他们用于区分男性和女性的特征图。我们按照相同的计算,分别得到男性的标准脸和女性的标准脸。我们发现在VGG-Face的特征图和人类的是非常类似的。事实上,如果我们对这两张特征图计算相关,可以得到0.73的相关度。从这个角度来讲,人类和VGG-Face用了类似的表征来完成性别识别的任务。进一步,我们来看这个相似是发生在什么空间频率上。在研究中,添加到中性脸的随机噪音是有结构的,由不同空间频率的图组成,下图最左边是低频的,最右边是高频的,我们把低频和高频的信息叠加起来,给大家看到一个实验用的噪音图。现在看在不同的空间频率下面,人和VGGFACE的特征图分别是什么样子。这些特征图也是非常相似的,而且相似度在低频上是最高的,随着空间频率的增加,人和VGG-Face的相似度越来越低。所以,VGG-Face和人类在完成面孔性别识别任务时,更多依赖于低频的信息。简单总结一下,计算机视觉的奠基人之一David Marr提出我们应该从三个层面理解智能:第一个层面是实现的目标或完成的任务,比如这个实验做的就是性别识别任务,这是最高的层面;最低的层面是物理实现的层面,也就是用什么硬件实现。在这个研究里有两种实现的硬件,一个是VGG-Face,一个是人的大脑,这是两个完全不同的物理层面;用物理硬件实现目标,中间还需要一个软件的层面,称之为表征和算法。表征和算法在输入和输出之间建立一种转换,这种转换就是智能。智能的本质就是表征。在上述研究里,表征就是把男性和女性区分开的特征图。 2、类似的任务经验对于形成类似的表征十分重要VGG-Face和人类用类似表征来完成性别识别任务,前提条件是什么?面孔对于人类而言比较特别,我们看到一个面孔,通常需要识别出身份,即直接识别个体,即这是张三。但是对非面孔的物体,我们的识别通常是在类别层面,比如我们看到猫,只会说是一只猫,而不是说这是张三的猫。其次是对面孔的识别更多依赖低频信息,比如心理学的负片效应,把照片的黑白值翻转,发现识别起来非常困难,同样把低频信息过滤,识别也非常困难。因为VGG-Face是经过面孔识别预训练的任务;所以,VGG-Face与人有类似的表征,可能是因为上述这两个原因,即:(1)VGG-Face和人都是在个体层面上识别物体;(2)VGG-Face和人因为处理过大量的面孔,因此会对面孔的独特特征(如低频信息)敏感。 首先,我们来验证第一个可能性:共同的任务经验。这里,我们选择AlexNet。AlexNet也是预训练网络,它不做面孔识别而做物体分类,我们把最后一层微调,让它做识别男性和女性的分类任务,正确率93%。即,虽然AlexNet是用来训练物体分类的,但是也能够把男性和女性区分,正确率也相当高。现在问一个有趣的问题,AlexNet在性别辨认上也能达到和人一样的准确度,但是AlexNet用的是和人类似的表征吗?我们来看AlexNet辨别男性和女性的特征图,如下图所示,肉眼能够辨别两者存在非常大差别,基本不相关,相关度等于-0.04。我们把它叠加到原来的基底图上去,得到的人脸也没有明显的性别特征。所以从这个角度来讲,我们发现AlexNet虽然能够区分男性和女性,但是它所用的表征是完全不一样的。我们做进一步的空间频率分析,把噪音特征图分为不同的空间频率,可以看到,基本上AlexNet和人类的各频率的噪音特征图是不相关的。回到实验的第一部分结论,我们发现预训练任务非常重要。为什么VGG-Face和人类在区分男性女性时用的表征是相似的?因为它们都被训练在个体层面上进行加工,而AlexNet是在类的层面上进行加工,从这个角度来讲,导致它们使用呢不同的表征。这一点我们可以从进化的角度来理解。我们之所以从单细胞变成现在多细胞的动物,就是因为我们在不断地完成大自然交给我们的任务;一旦完成不了,那只有一个结果,就是基因被淘汰。也就是说,we are what we do。我们的智能是被我们过去所完成的任务所决定的。总结一下:认知神经科学发展了一系列有用的工具和方法论以及实验范式,这些范式有助于我们了解深度神经网络内部特征和模块,得到可解释、可预测的深度神经网络。更进一步,认知科学、神经科学和智能科学的深度交叉所形成的认知神经智能科学将会为揭示智能的本质,提供一个新的视角。具体而言,一个理想的研究智能模式是:通过神经科学发现一个大脑工作的机理(brain inspiration),根据认知科学来来对该机理进行建模(cognitivemodeling),然后用计算科学来开发一个计算复杂度适度的算法(physicalimplementation)来解决一个真实的现实问题。