北大心理与认知学院院长方方：人类注意力图和动态机制

2020 年 7 月 11 日 AI科技评论

作者 | 青暮

编辑 | 丛末

6月22日，北京智源大会举行了认知神经基础专题论坛，来自北京师范大学认知神经科学与学习国家重点实验室的毕彦超教授、北京大学心理与认知科学学院的方方教授、北京师范大学心理学部的刘嘉教授、北京大学计算机系的吴思教授、中国科学院自动化研究所的余山教授分别做了报告，共同探究认知神经科学能为AI带来什么启发。

第二位报告者是北京大学心理与认知科学学院院长方方教授，题目为《人类注意力图和功能》。

方方教授在报告中讨论了人脑注意的两个重要属性：注意力图和动态注意机制。注意力图有两种。注意显著图（Saliency map）源于自下而上的注意，注意优先图（Priority map）则结合了自上而下和自下而上的活动，以及任务相关性。对多个物体的注意是交替性、节律性、非静态的采样。

以下是演讲全文，AI科技评论做了不改变原意的整理。

我们一般说注意是对外界信息的一种选择性加工。解释注意最好的例子就是交替呈现以下两张图。它们之间有一个非常大的差别，如果不加注意就无法看出。

两者的差别就在雕像的背后

注意是认知科学里最大的一个领域，每年有超过1万篇文章研究注意现象。Corbetta和Shulman在2002年描述了关于注意控制的神经模型，总结出两条注意通路。蓝色区域表示背侧额顶网络，负责自上而下的注意控制。橙色区域表示腹侧额顶网络，负责刺激驱动的注意控制。

注意最主要的功能是调节感觉皮层的神经活动，Reynolds和Heeger描述了两种典型方式。第一种是乘法缩放。对于一个方向选择性神经元，注意可以整体提高神经元在各个方向上的反应。如下图左所示，不注意（蓝线）和注意（红线）之间的变换是一种乘法关系。第二种是锐化。注意可以增强神经元对特定方向的反应，让神经元对外界刺激的选择性更强。这是注意的一些基本功能和神经结构。

注意力图

三维世界投射到我们眼睛上就变成了二维世界，这个二维世界有非常多物体和细节。关于哪些东西更重要的空间分布，就叫注意力图。它分为两种：

一种是注意显著图(Saliency map) ，指自下而上的注意。例如一个非常奇怪的东西出现在视野中，就会自动吸引你的注意。

另一种叫注意优先图(Priority map) ，则是我们整合自上而下的活动和自下而上的活动形成的注意力图。

做任务时的任务属性也会影响注意放在何处。比如我正在做报告，那么我的注意会更多放在面前的计算机屏幕上。这两种地图如何产生，是我们所关注的问题。

关于Saliency map ，首先讲最简单的自下而上的注意力图。下图左边是一张海景图，通过计算模型可以算出右边的Saliency map。越亮的部分表示越有吸引力。

如何得到右图？我们根据Itti和Koch在1998年提出的模型，计算一张图片在不同尺度上颜色、亮度以及朝向的差异对比度，进行多个尺度的整合，形成Saliency map。

有很多重要的文献探讨Saliency map在大脑什么地方产生。不同的结论包括在顶叶、前额叶眼区、上丘整合等等。但是我认为视皮层V1区就可以充分解释Saliency map。

为什么以前很多文章都说注意在比较高级的顶叶、额叶等产生？一个可能的原因就是，以前的生命科学研究混淆了自上而下和自下而上的信号。如果我们要研究Saliency map，必须研究纯粹的自下而上的刺激。怎么样才能做到？我们用无意识的方法，在没有任何自上而下的干扰下，实现研究自下而上的注意。

实验示意图如下。“十字”是参与者的注视点，四个“减号”是Saliency map的位置。它会显著吸引我们的注意，而且经过实验操纵后不会被意识到。我们改变“减号”的角度，将“减号”和“I”之间的夹角分别设为0度、15度、30度和90度。随着夹角增加，它吸引注意的能力逐渐增强。

如何把这个刺激变得无意识？下图是我们的实验流程。首先呈现线索图片(Cue) 50ms，然后呈现掩蔽图片(Mask) 100ms，然后呈现注视点 50ms，最后是探测任务，探测第四张图十字下面两个点的相对位置。由于线索仅仅呈现非常短的50ms，又紧跟着100ms的掩蔽图片，所以被试完全不会意识到线索的存在。但是探测任务放在线索的显著区，被试依然有较好的表现。任务放在对侧的话，被试的表现就比较差。两个条件的差别就代表自下而上的注意强度。

我们接着利用视皮层V1区神经元的属性构建注意模型。看看下图的数据，随着朝向倾斜角度增加，注意的吸引力也逐渐增强，跟计算模型吻合得非常好。我们发现Saliency map跟V1的神经元活动是有关系的。

从初级视觉层到顶叶，Saliency map的效果逐渐减小。最明显的是V1区域，可以产生自下而上的注意。我们上面的研究基于人工刺激，下图则基于自然场景。图中的马具有非常高的显著度，甲壳虫具有较低的显著度。他们在大脑皮层诱发出的信号有没有区别？

我们重复了这个行为学实验，发现马确实可以诱发出更强的注意信号，甲壳虫则不可以。并且还是在V1区域展示了注意的分布，所以我们再一次用自然场景证明了Saliency map跟V1是相关的。

基于这个生理学依据，我们构建了一个动态注意模型。这个模型的大致框架有三个组件：第一部分参考感觉反应，模拟V1神经元对自然场景做稀疏编码；第二部分是中央凹图像多分辨率金字塔方法。对于自然场景，如果盯住这个红色十字注视点，编码会非常清晰，但是对外围的编码就非常粗糙；第三部分模拟视觉工作记忆，注视一个场景后很难立刻再跳回去。

我们把这三个组件放在注意模型里，构建了一个基于图论的模型。这个动态的注意模型将V1神经元构成网络，用该网络搜寻图片上最富有信息的区域，然后跳到第二富有刺激信息的区域。下图中最下方图的红线代表在自然场景里人类的眼球运动轨迹，中间是我们模型预测的轨迹。实验结果表明我们的模型和实际情况吻合得更好。

关于Priority map，回到那张海景图，Saliency map是中间上图。任务要求寻找图上的小岛，于是小岛被高亮标记。中间这两张图并在一起后，小岛应该仍是高亮的。Priority map整合了自下而上的显着性，与当前任务的相关性。

我们又用人的面孔进行实验。面孔比人工刺激复杂得多，还具有倒立效应，即同样的脸倒过来后很难识别。这也非常影响Priority map在面孔上的分布。

我们给被试看正立脸、倒立脸和相位打乱的面孔，让被试的眼睛在面孔上随便跳动。另外，扫描被试视皮层对面孔的反应，得到行为学的数据和脑活动的数据。

我们重构出任意一个视皮层对面孔每一个部分的反应。下图右下角是模型重构的反应，颜色越暖说明视皮层相应区域对面孔的反应更强。右上角是行为学数据，我们第一眼看面孔时注视什么地方。颜色越暖说明第一次着眼此处的概率越大，也就是该区域越容易吸引眼球。

下图是这个实验最主要的结果。我们测量最左边正脸和倒脸吸引眼球的程度，描述了视皮层V1、V2、V3区域对正脸和倒脸反应的分布。

我们发现V2和V3对正脸的表征是最精确的，远远高于其他三种情况。V1对正脸和倒脸的反应表征的精准度都比较低，但是V2和V3对正脸表征的精准度比对倒脸表征高很多。

总结一下就是，人类早期视皮层，从V1区域到V3区域，V1对Saliency map即自下而上的注意起到很好的表征作用，V2和V3则对Priority map即自上而下的、任务驱动的注意起到很好的表征作用。

注意的动态机制

过去关于注意采样的大部分观点认为，我们一旦注意到一个物体，对它的注意是持续的、静止的。但事实是不是这样的？从现在的数据来看，不一定。

另外一种观点是有数据支持的，特别是同时注意两个物体的时候。如下图所示，一种理论提出注意把关注点分割为两块，同时关注蓝色和黄色方块，这是一种平行和稳定的关系。另外一种理论认为，注意在这两个物体之间切换。我们希望用实验来提供进一步证据。在我们的脑成像实验之前，行为学研究已经发现，如果同时注意左右两个物体，注意其实是左右切换的、顺序的、周期性的交替采样过程。我们的脑成像结果也证明，对多个物体的注意是交替性的、节律性的采样，而不是一种静态的过程。

下图表示随着不同的任务要求（100%注意A并且0%注意B、75%注意A并且25%注意B、50%注意A并且50%注意B），注意在不同的物体之间节律性分配。它不仅仅对静态物体有用。对于动态的物体，比如两个运动的小球，同样可以发现类似的节律性采样过程。

上面讲的是对于物体的采样和对于空间的采样，如果同时注意多个特征，采样是怎么样的过程呢？这个问题相当复杂。比如对于任何一个朝向、任何一个运动方向来说，有很多神经元同时进行反应，怎样描述这种同时的反应？我们做了一个脑磁实验，呈现一个刺激，测量脑磁信号。这些信号由大脑中不同朝向神经元的不同通道反应组合而成。然后我们用脑磁信号反解出每个通道的反应。