北师大毕彦超：AI和人类感知的相同点和不同点

2020 年 7 月 25 日 AI科技评论

作者 | 青暮

编辑 | 丛末

人工智能和认知神经科学都在尝试打开 “智能”的黑箱，两者应相互对话、相互帮助，才能共同快速发展。一方面，脑科学能帮助人工智能专家构思出更好的网络结构、更好的算法，从而推动人工智能的发展；另一方面，我们也经常发现，AI专家发明出的人工智能算法，经常和生物体处理信息的方式极为类似。

那么，人工智能发展到最后真的会变得和生物大脑完全一样吗？不一定，因为两者服务于不同的目的。人工智能要实现的是具有专用功能的机器，而生物智能要实现的是能适应大自然环境的有机体。

但是生物大脑是亿万年进化的产物，所以它在进化过程中已经摸索出极佳的信息处理的架构和算法，这些架构和算法可以为发展人工智能带来启发。

所以从原则上来说，两者存在交集，但并没有包含关系。

在北京智源大会举行的“认知神经基础”专题论坛，来自北京师范大学认知神经科学与学习国家重点实验室的毕彦超教授、北京大学心理与认知学院的方方教授、北京师范大学心理学部的刘嘉教授、北京大学计算机系的吴思教授、中国科学院自动化研究所的余山教授分别做了报告，共同探究认知神经科学能为AI带来什么启发。

毕彦超教授做了《人类大脑的知识表征》的报告。毕彦超教授在哈佛大学获得心理学（认知、脑、行为）博士学位，在人脑实现语义知识表达方面做过很深入的研究。

在报告中，毕彦超教授汇报了三个实验，解释了人脑有两套知识表征模式。一套是感觉信号来源的知识编码，另一套是语言信号来源的知识。两套编码系统的信息内容和编码方式都有不同。

以下是演讲全文，AI科技评论做了不改变原意的整理。

知识在大脑哪里

AI的知识表征一般指从文本提取各种知识图谱，而人脑里其实存在很多非语言描述的知识。

举两个例子，有的大脑损伤的病人，给他一个剪刀，他知道这是剪刀，也知道剪刀是用来剪东西的。但是他完全不知道该怎么用，连应该怎么拿都不知道。

另外一类病人，我们也给他一个剪刀，他知道怎么拿，也知道应该用怎么样的动作，但是他是从前往后剪，正常用剪刀都是从后往前剪。

这两个例子表明，即使是非常简单的运动动作，也需要存储知识的指导。人的大脑对外界信号的理解，比如识别语音、识别文字、识别图片等等，其识别的最终目的是在我们大脑中提取外界刺激所不包含的信息。这就是普遍性的知识，只有提取了这种知识，我们才对信号有了理解，对世界有了理解，我们才能做相应的运动动作。

大脑的知识保存在哪个脑区？如下图所示，这是我们看一个词时，大脑的激活状态。大脑活动一开始直接从视觉皮层激活，但其实这个过程不仅仅包含视觉信号加工，大脑活动会迅速扩散到全脑。

大脑是一个功能分区非常明显的系统，比如大脑的枕叶处理视觉信号，颞叶处理听觉信号。那么知识存储在哪里呢？综合近二三十年的研究，答案是“EveryWhere”。

下图是综合09年之前几百篇研究得到的元分析结果，每一个黄点都是激活点。这是人脑在理解词汇、图片的时候激活的地方，实际上几乎全脑都会被激活，表面知识可能是非常广泛的分布式存储。

大脑的特定脑区保存了什么信息？知识的保存为什么需要这么多脑区的参与？认知神经科学多年来的主流观点是，即使对一个非常简单的概念，比如牛，也分成不同类型的知识存储在相应不同的大脑系统里。

比如听到“牛”这个词，我们会知道它的外形、动作、声音、与人的关系，不同的信息以相应的感觉经验的模式编码在系统中。

其中比如牛的外形，我们的视觉系统看过很多牛，那么相应的激活模式就保存在大脑视觉皮层。下次问我牛的外形，过去的对视觉信号激活的痕迹就会被提取出来，包含它的外形信息。

所以，知识分布式存储的原因是：第一，简单概念中也包含不同类型的知识；第二，特定类型的知识存储依赖于特定脑区本来的功能。

人类大脑的两种知识表征模式

与AI不同，这种人类大脑的知识表征理论中几乎看不到语言的痕迹。我们理解物体、理解语言时，所提取的知识是以对视觉、听觉等信号的感知经验以及与跟对象交互的动作经验信息编码。

那么，这种感觉、运动经验的编码是人类知识表征的全部吗？人又如何存储跟感觉、运动信号并不完全对应的各种抽象知识呢？比如刚才所说的牛，牛肉很有营养、牛会产牛奶等等，这种抽象知识怎么保存在大脑系统里？

我们用实验来回答这个问题。我们通过实验探究先天盲人和正常人在颜色知识表征上的区别。我们大脑中怎么存储玫瑰花是红色这个知识？现有的理论是以过去看玫瑰花的时候，相关的“红色”神经元的发放模式就会印记为“玫瑰”的知识，也就是说印记在视觉皮层里加工形状的视觉编码。

先天盲人出生时由于种种原因而没有视觉，问他们玫瑰是什么颜色时，他们仍然正确地回答玫瑰是红色的。颜色是个很特别的特征，因为是光波长度特征，除了视觉没有其他感觉通道可以感知。先天的盲人既然没有视觉经验，只能是靠语言输入获得这个知识。那么他们能获得不同颜色之间的复杂关系吗。

我们首先做了一系列的行为实验。比如，直接问他们不同的东西在颜色上是相似还是不相似、有多么相似。下图是他们行为结果的矩阵图，每一小格都是人们对两个客观颜色相似程度的回答，左边是正常控制组，右边是先天盲人。可以看到先天盲人不仅仅可以回答颜色知识问题，而且回答的结果模式跟正常人是非常相似的，相关系数是0.88。

此外，对于过渡地带的颜色，比如酒红、玫瑰红这些颜色，盲人和正常人的表现也有很大相似。

下图是物体颜色的判断空间的视觉呈现，左边是正常人控制组，右边是盲人组，可以看到盲人判断颜色之间的远近非常接近正常人。所以即使完全没有感觉到视觉信号，只提供语言符号信号的话，人也可以建立起相似的知识空间。

第二个实验探究这两种不同人群在大脑中编码颜色知识的模式。我们把所有的被试放在磁共振机器里，让他们做相似的任务。比如听到苹果、玉米、香蕉这些词，然后回答颜色相关的问题，从而获得每个被试对每个词在回答颜色问题时，大脑所有脑区的激活模式。

通过解码先天盲人和明眼被试人的脑活动对颜色信息编码，发现：第一，我们的确发现大脑当中有一片视觉脑区负责正常人编码颜色，但是盲人并没有。该脑区包含只对颜色敏感的神经元，正常人的活动模式是两个东西颜色越像，神经元的活动越像。盲人则没有这个效应，因为他们从来没有颜色视觉经验。

对于盲人而言，在另一个脑区，颞叶前部上侧，神经元的活动模式是两个颜色越像，它们的活动越像。最重要的发现是，不光是盲人，正常人在这个脑区也有一模一样的效应，也就是说正常人的颜色编码其实涉及两个脑区，一个脑区只有正常人有，以颜色感知觉模式编码颜色知识，另一个区域正常人和先天盲人都有，编码以语言渠道获得的知识。下图是这种双重编码的知识系统的示意图。我们把后面这个视觉信号相关的物体颜色知识一个区域叫“Sensory Derived knowledge representation”，前面这个个区域dorsal ATL叫“Language Derived knowledge representation”。

既然存储有两套不同的编码系统，在大脑不同的区域编码不同的信号信息。大家可以猜测一下，先天盲人怎么表征“彩虹”和“雨”？盲人什么都看不见，但雨还是能感受到的，比如湿度、触觉等等，但是看不见彩虹。我们这篇在Nature Communication 2018年发表的工作发现，对于正常人来说，雨和彩虹非常相似。对于盲人来说，雨是一个具体词，彩虹则是一个非常抽象的词汇，更强存储于完全进行符号编码的脑区，而雨对于盲人而言，还跟正常人一样，在感觉皮层很多区域都有加工。

我们还可以从另外分布式网络结构的角度问人脑知识表征的问题。再次看看下图，人在理解词汇和图片的时候激活的脑区是分布式的。这个网络有什么结构？

我们可以让在被试不做任何具体任务、躺着发呆，然后我们通过功能磁共振测量大脑活动。这时候的大脑活动其实也不是噪音，而是有很多内在规律。我们把不同脑区之间的连接强度提取出来，构成一个由点和边组成的图，就得到了大脑不同脑区之间的连接方式。

我们观察这个图内在的结构，会发现有非常稳定的三个模块—子网络。一个是绿色的脑区之间联系特别紧密，一个是蓝色的脑区之间联系特别紧密，一个是红色的脑区之间联系特别紧密。我们根据以前对这些脑区的理解，发现绿色的脑区是语言进行加工的地方。红色的脑区是感觉、运动的信号进行加工及多感觉通道融合的地方。蓝色的脑区是执行控制的系统，是对不同的信息进行组合和切换的系统。

前面发现的提取颜色知识时的两种编码脑区正好就分布在绿色子网络和红色子网络里。所以总体来说，这两个系统在全脑水平上呈现出两个不同类型的网络模块，分别进行语言符号获得知识的编码和感觉获得知识的编码。

我们下面的问题就是，这两个系统的编码机制是什么。我针对每一个系统，举一个实验来介绍一下我们的思路。

感觉来源的知识：感觉信号还是计算内容？

首先是感觉来源知识系统，是如何存储知识的？是完全基于感觉信号来编码吗？我们比较了先天盲人和正常人在腹侧视觉皮层上对于形状的加工机制。下图是经典的腹侧视觉皮层，它有典型层级化的结构。早期的视觉皮层对基本视觉信号敏感，高级视觉皮层会有不同的分区，分别对几个不同重要类型的图片比较敏感，比如人脸、场景、工具、身体等，可能与物体形状知识存储相关。

我们比较先天视觉剥夺对这种分布的影响。我们让正常人和先天盲人听很多不同类型的词汇，看看他们视觉皮层激活的情况。在某一个视皮层区域，正常人在看沙发、办公室等大场景的物体，激活就会特别强。在另一个区域，正常人在看小的工具，比如刚才说的剪子、锤子等，激活就会特别强。对这两个区域，先天盲人的激活模式和正常人是完全一样的。盲人从来没有看见过场景和工具，只能用触觉或者其他渠道获取相关信息，其激活模式也和正常人一样。

这是不是因为其实光的信号本身并没有那么重要，只要编码相关形状的信息，无论是光信号获得的，还是触觉信号获得的，只要是相似的几何形状关系计算就可以？

此外，正常人大脑视觉皮层还有一个区域，对动物类的视觉刺激很敏感，比如人的面孔、小猫的形状、小狗的形状，但如果听词和先天盲人听词就没有这种表现。也就是说，大脑的激活模式不仅仅依据对视觉信号的敏感度，还跟物体的类型有关系。

为什么会有的视觉皮层区域不受感觉信号通道的影响、有些则受？我们推测，这可能与人视觉加工的计算目的相关。生物大脑识别物体的机制不仅仅是为了贴标签。人贴标签是为了交流信息，但是在语言产生之前，人的大脑已经进化了很漫长的时间。在一个简单的场景中，比如餐厅，我们看到的丰富视觉信息中不同元素需要会引导我们作出非常不同反应。看到人要有社会性反应；看到刀叉要有操作性反应；看到桌椅要有绕开或坐下的反应。

视觉系统处理视觉信号，重要目的是正确的提取相关的反应，以适应生存。

人的视觉识别或者视觉知识的存储，会额外考虑到人对应的运动动作是什么。比如下图中的蓝框是人的视觉系统，有不同的层级，这些层级组织的方式要匹配到合适的反应上。

在视觉系统的组织或者视觉知识存储的时候，跟反应之间的对应关系就有可能发生在不同的层面。所以，我们可以理解，对于沙发、锤子等物体，盲人和正常人的视觉组织方式是很相似的，这是因为他们有可能在视觉和运动信号对应上是比较透明的。盲人虽然没有视觉，但是以同样的方式使用这些物体。但是有可能对于蛇、蝴蝶、老虎等等这类信号，并不是从形状上判断如何反应，正常人和盲人接收这些信号的通道不一样，所以正常人和盲人的感觉组织方式就不一样。

按照特定感觉信息所编码的知识体系，不仅仅是感觉信号本身，还要考虑到不同系统之间的对应关系。所以，人脑的感觉知识编码和仅对标签分类进行训练的深度学习是非常不同的。

语言来源的知识和AI的知识图谱

先天盲人对物体颜色只利用了语言来构建知识。这是什么编码方式呢？可能与经典知识图谱的问题相似。比如苹果siri可以回答语言问题，但是并不直接编码视觉信号、触觉信号等等。

所以我们做了一个初步的尝试，看它们之间是不是真的有对应关系。我们同时做了两个实验，给定同样的词，一套提供给人的大脑系统，一套提供给AI系统，然后建构相关性表征。下图左边矩阵是人在扫描仪里面看那些词（比如赞成、多数、幻想）然后对每一个词获得一个大脑活动的模式。下图右边是我们用word2vec的方式建立的词和词之间的关系。

我们发现人脑几个语言子网络中和word2vec模式唯一有显著相关的就是绿色的系统，也就是人对语言符号加工比较敏感的系统。

大脑系统里可能有这样的绿色系统，它并不关心特定的感觉信号来源比如视觉、听觉、运动等等，但特别对于抽象符号类型的关系很敏感。第一个相关证据是，先天盲人完全没有视觉经验，没有任何其他感觉信号可以获得颜色知识，其编码区域就是在这个绿色系统。第二个相关证据是，绿色系统的活动模式跟word2vec相关，而其它的区域跟word2vec都不相关。

总结

我介绍了关于先天盲人的颜色知识、先天盲人的物体形状知识，还有词的计算关系的实验，结论是人脑有两套知识表征模式。一套来源于人特定的感觉神经信号，一套来源于比较脱离感觉经验的抽象语言符号系统。

知识在在人的大脑里以这两套模式存储，组合在一起是人类知识表征。无论我们是看一个图片，还是看一个词，最终都是这两套系统一起激活。需要额外强调的是感觉知识的表征，不仅仅和感觉信号本身有关，还和运动动作相关。我们推测可能感觉来源的知识系统对非文本编码的“common sense knowledge”表征有额外重要的作用；而语言来源的知识系统也在视觉识别中有所影响。

招聘

AI 科技评论希望能够招聘科技编辑/记者

办公地点：北京/深圳

职务：以跟踪学术热点、人物专访为主

工作内容：

1、关注学术领域热点事件，并及时跟踪报道；

2、采访人工智能领域学者或研发人员；

3、参加各种人工智能学术会议，并做会议内容报道。

要求：

1、热爱人工智能学术研究内容，擅长与学者或企业工程人员打交道；

2、有一定的理工科背景，对人工智能技术有所了解者更佳；

3、英语能力强（工作内容涉及大量英文资料）；