爱犯错的智能体：视觉倒像、颠倒的视界

2018 年 8 月 3 日 算法与数学之美

机器会犯错，其错要么是因为数据集太少，无法涵盖数据形成的样本空间；要么是由于训练太过精细，导致没办法对新来的样本或数据形成有效预计，俗称为过拟合；要么是模型本身的能力低，结果对样本的刻画能力不足；要么是硬件条件受限，无法完全相关任务。不管哪种错，总是多少能找到原因的。

而智能体尤其是人类的犯错，却有很多缺乏明晰的解释。人类会在很多方面犯错，产生错误的判断，视觉上、听觉上、距离上、认知上、情绪上，甚至人类发育的基础，基因上，都有。为什么这样一种错误频出的智能体，却能凌驾于其他生命成为地球的主宰呢？这些犯错到底有什么用呢？了解这些犯错，说不定能从中找出一些有用的线索，来重新思考人工智能的发展方向。

今天聊聊人类在视觉上的犯错表现。这种犯错常被称为光学错觉，英文叫Optical illusion。

先从光学成像说起吧，第一个还没得到完全认识、但却又是最基本的，是视觉倒像问题。小孔成像原理告诉我们，要观测的目标通过瞳孔的凸透镜原理映射至视网膜上，是一个标准的倒像。如果是机器，则可以通过光学变换还原成正常的影像。而智能体似乎并没有光学变换的能力，从视网膜往后联就是视神经元了。人类的视网膜上位于中间位置（俗称中央凹，fovea）的视锥神经和周边的视杆神经主要承担感受光强、颜色和运动状态的功能，似乎没有自动翻转的能力。

图1：眼睛的小孔成像原理

假如没有自动翻转成正常或倒着看世界会如何呢？金庸的书籍《射雕英雄传》谈到过。西毒欧阳锋为了学习从黄蓉那弄来的、假的《九阴真经》，将全身经脉逆转，结果走火入魔，变成手当足、脚当手来倒立走路。经过一段时间后，他似乎已经习惯这种颠倒的世界。

当然，这是小说中的虚构。但从历史来看，还真有科学家做过这样的尝试。1897年，美国心理学家George Stratton发表了“视网膜没有逆转视觉”的论文。在论文中，他详细介绍了关于视网膜倒像的实验。他给自己戴了一幅凸透镜，并把其中一只眼完全遮住。在前四天，本已被凸透镜纠正过来的正像，他看到的却始终是倒的。结果，以平时经验去拿东西都很失败和别扭。因为影像是倒过来的，而手势什么却还是按正常的方向去行动，想拿地上的物品手会往上伸，想拿架子上的手却往下放。不过到第五天后，他的视觉奇怪地、自发地变成正像了，好象视觉神经已经适应了，他肢体的动作也与再次世界协调了。但再取掉凸透镜后，他发现世界竟然都是巅倒的，之前的正像要再过一段时间才能恢复。换一只眼执行此实验，情况依旧。因此，他断定人的视网膜并没有把倒像颠倒过来，其功能是在视觉神经的后端实现的。即，视网膜感受的颠倒信号，是在通过视神经传导到大脑皮层的视觉中枢后，在视觉中枢实现自动翻转的。这也是目前学术界的共识。

图2 视觉倒像实验[Wiki]

其实还有个简单的办法可以检验视觉在视网膜位置是倒像的。你读到这里的时候，不妨把手放到下眼皮底下，用手把下眼皮慢慢往上推。你应该能看到一整块模糊掉的字和图往下走，而不是往上。视觉能力强的，说不定在下眼皮遮挡眼睛的过程中，看到上方会出现一块黑斑。这些恰恰就是因为光学视觉倒像造成的。

后期有很多科学家想重复他的实验，不过比较遗憾地是，没有人观察到过倒像还能适应后翻转的现象，更多地是表示能够适应巅倒过来的世界。

不过也有科学家在尝试中发现，如果戴那种会导致变形的眼镜时，类似哈哈镜那种，有些人的视觉会自动将一些没注意到的变形的位置纠正。而取下眼镜后，看到的世界反而变得扭曲了。这似乎表明大脑确实能自适应地纠正一些扭曲。

现实生活中，也有一些人会故意去阅读一些倒过来的书本，他们将其视为提高阅读速度和能力的一种秘技。还有科学家说，通过这种方式，可以刺激大脑形成新细胞，防止衰老。其实大家稍微练练，也不难做到。所以，以后看到倒着看报纸、读书的人或新闻照片时，不要马上就嘲笑喔，说不定他们真的能这样读的，哈哈。

图3 大师辜鸿铭”把报纸倒过来读”的轶事【摘自2018年1月《博爱》】

另外，作为感官元件，眼睛和其它感觉器官还有点不一样。它是在大脑发育过程中，从大脑细胞中分裂出来的。如果把从眼球到视觉中枢的连接看成是一个深度学习模型，也许可以将这种视频倒像的纠正，理解为大脑处理的端到端表现。

但倒像纠正具体是何时发生的，George Stratton没有给出研究结论。现有的文献也是说法不一。有说初生儿开始感知的世界是颠倒的，随着大脑发育的逐步完善而慢慢实现的。因为有报道说，有些两三岁的小孩可能喜欢会倒拿玩具，倒读连环画的，并猜测这可能和正视发育未完全有关。还有些人，据说天生就有空间定向现象(spatialorientation phenomenon)，看的世界都是颠倒的。也有说倒视能力是与生俱来的，毕竟前者的例子还是很鲜见。

图4 患有“空间定向障碍”的塞尔维亚女子，眼中世界完全颠倒

不管怎么说，这个看似极其简单的问题，仍然没有找到统一圆满的答案，不论是它的成因还是发生时间上。

上边讲到，光学倒像这一简单的现象，在何时纠正和如何完成上，还没有形成统一和完美答案的。除此以外，以下三种情况的颠倒视界也会影响人的判断，导致错判或判断障碍，甚至产生光学幻觉。

一、人脸翻转效应(Face Inversion Effect)

图1是网络上经常能看到的。左图是一个老太太。但如果把图像颠倒过来后，却能看到一位戴着皇冠的美女。类似的颠倒错觉图还有不少。这类图产生两义性的结果，主要缘于人的视觉系统具有整体结构观和依赖人的先验知识或以往经验。

观看一张人脸图时，人们会自然地把眼睛下面的结构按鼻子、嘴巴、脖子的次序依次排序去联想和匹配，而眼睛上方的结构则往头发、头饰去想像。很少人会不按这样的结构次序来反向思维。它表明，如果忽略了与生活常识中次序相反的细节结构，就有可能产生颠倒错觉。当然，如果你有倒过来阅读习惯的，其实也能从老太太的图上直接看到倒过来的美女。

图1：颠倒错觉中的老太太与美女画像

更有意思的是，某些图像，尤其是人脸，即使只是简单地翻转，也可能导致认知障碍。

1969年，科学家Yin第一个在文献中报道了：翻转脸对于识别的影响要大于其它范畴的图像[1]。自此以后，很多科学家开始研究人脸翻转效应，并试图给出合理的解释。

加拿大安大略省女王大学(Queen’s University)的三位研究人员Freire等曾在2000年展开深入研究[2]。他们首先将多个人脸图像进行统计平均，以形成平均脸。基于对图2平均人脸的研究实验，他们分析了人脸逆转效应(Face Inverse Effect)。

他们注意到，在正脸情况下，如果从整体结构或构型(configural)的角度出发，人能够以81%的精度区分人脸。当人脸被翻转后，就只有55%的识别精度了。而如果要求测试者辨识人脸上的特征，如眼睛、眉毛、鼻子之类的，那么翻转的影响就很轻微。正常脸的识别精度是91%，翻转了也有90%的精度。如果考虑延迟的影响，他们发现隔1到10秒，让测试者重新去识别，不管是正脸还是翻转脸，在构型上或特征上的差异都能正确识别，人脸逆转效应似乎消失了。从这些实验，他们推断，人脸逆转效应中起主要作用的是构型，即整体结构对识别的影响更大。但这也可以算作构型编码的一个缺陷，比如双胞胎就很难通过构型编码来区分。

由于在时间上识别率上的差异极细微，他们还推断，这种构型缺陷主要发生在人脸处理的编码阶段，而不是后面的人脸存储阶段。这与图1中我们不容易发现老人图像中隐藏的美女的情况是吻合的。

图2 人脸逆转效应，左边，正脸(Upright)，右边，颠倒脸(Inverted)；中间的字Featural表示“基于特征的”[2]。第二行表明人脸构型上的垂直(Vertical)距离在翻转后会被错判。

另外，科学家Carbon和Leder[3]在研究中发现，正脸比翻转后的脸的全局信息能更快获得，而在翻转脸后，特征的提取则要先于整体信息进行处理。而要在短时间(如26毫秒)处理局部特征信息，则具有上下文信息的整体结构处理是必要的。

总的来说，翻转效应影响了人对人脸的空间关系，即人脸构型的认知[4]。但是，人脸翻转效应还没有一个终结者的解释。有兴趣的朋友可以在网络上搜索”Face Inverse Effect”，应该可以查到不少最近的相关文献。

相反，现有的人工智能技术是不用担心翻转对识别性能的影响，尤其在现在引入生成式对抗网络和数据增广技术后。翻转被作为丰富人脸训练数据集的手段之一，因此，不会损害人脸识别算法的预测性能。

但从认知的角度看，这是否意味着我们在提高预测能力的同时，有可能损失了“拟人”的某些认知功能呢？也许可以推断，人脸翻转效应表明，现有的人工智能技术在人脸识别的处理方法上和人在人脸的认知上存在根本的不同。理解这些差异，也许是通向“强”人工智能和混合智能方向的线索之一。

二、正片负片的人脸识别

不仅在图像方向上的翻转会引起认知障碍，甚至对图像做简单的强度翻转也会让原来人脸识别变得更困难。

图3人脸图像的正片（左）和负片（右），以及变换公式(中)。中间图里，横坐标可以认为是输入的图像强度，纵坐标是变换后的强度。斜线是正负片的翻转方式，即白变黑，黑变白。

图3左图是一张正常的人脸，如果对其用中间图的函数做翻转变换，即白变黑，黑变白的简单翻转，则有了右图的负片图像。虽然人在识别和记忆左图人脸时，是不太需要费脑筋的。虽然用的函数变换也很简单，但对于右图，如果没有左图做参照，人可能很难联想其真实的相貌，更不用说做有效识别了。这种差异也许是由于日常生活缺乏负片学习造成的，因为人的视网膜细胞只是感光细胞，只能接受正能量。也许是由于智能体缺乏这一类数学计算的能力，没有演化出有效的办法，可以在大脑自动将中图的简单函数求反，尽管智能体可以实现前一篇中所讲述的、光学倒像的自动纠正。

三、正负倒影

图4 耶酥光学幻觉

除了以上两种颠倒，人的视觉还有翻转颜色的“特异功能”。如图4所示，如果你盯着这张图中间的四个点静看30秒，再去看一面白色的墙或屏幕的空白处，或不停的眨眼，你的眼前便会浮现出耶酥的影子。这个影子看上去就像是由图上黑色背景内部的部分，通过黑变白，白变黑互补所形成的图像。

至于为什么会有这样的结果，也是众说纷纭。比较靠谱的解释是，这是一种图像烙印(burn-in)或持续性记忆现象。当一个非常明亮的目标处在视野的关注焦点时，会在视网膜上短暂地打上烙印。如果随后闭眼或者重复性地眨眼，这个烙印仍然还会持续一段时间。

也有观点说，人的眼睛是由视锥和视杆细胞组成。其中，视锥细胞主要负责环顾四周。如果长期只盯着同一目标看的话，那视锥细胞就容易工作过度，导致快速疲劳。结果，如果离开盯着的目标后，疲劳的视锥细胞不会迅速反馈新看到的颜色到大脑，比如新看到的白色墙壁。而大脑还需要对老的信息进行解释，因为它并没有收到强的、新的信号。

还有观点将其称为视觉后效(Aftereffects in Visual)。即连续注视相同图形之后，会导致感知被影响，随后影响感受到的图形结果。这种知觉现象最早于1925年由E.H.维尔霍夫发现，后来很多科学家都对这一现象进行了系统的研究[5]。

这些观点都认同，随着视网膜神经细胞功能的恢复，这个现象会逐渐消退。因为这种现象能带来很多奇特的视觉效果，所以，这或多或少可以解释，为什么大多数艺术馆里都是以白墙来装饰的。

不管怎么说，人眼的这些错觉现象表明，人内在的认知行为，可能比我们现在人工智能所能实现或理解的功能要复杂，需要做更多的探索。

今天就写到这里。下回介绍智能体的另一种视觉错觉。

张军平

2018年7月5日

参考文献：

1.Yin R K. Looking atupside-down faces. Journal of Experimental Psychology. 1969, 81: 141 – 145

2.Freire A, Lee K, Symons LA. The face-inversion effect as adeficit in the encoding of configural information: direct evidence. Perception.2000;29(2):159-70

3.Carbon CC, Leder H. Whenfeature information comes first! Early processing of inverted faces. Perception.2005;34(9):1117-34

4.Rossion B, Gauthier I.How does the brain process upright and inverted faces. Behavioral and cognitiveneuroscience reviews. 2002, Mar; 1(1): 63-75.

5.http://www.baike.com/wiki/图形后效

人物介绍：

图3是计算机视觉领域的杰出人物之一，加州大学圣特芭芭拉分校计算机系的Matthew Turk教授。他和Alex Pentland在1971年提出的特征脸(Eigenface)算法，在深度学习兴起前，是计算机视觉领域在人脸识别和其他目标识别中的经典算法之一。目前该算法的学术谷歌引用达17000余次。