【观点】张军平:爱犯错的智能体 – 视觉篇(三):看不见的萨摩耶

2018 年 7 月 18 日 中国自动化学会

导读

张军平教授从人体眼睛构造、心理有意无意忽略以及颠倒视界影响判断等方面分析了人类在视觉上的犯错表现;阐述了人类作为不同于机器的智能体,所犯的错误很难找到明晰的解释;然而人依赖于情感和心灵的视而不见和熟视无睹,比起单从视觉上发生的,要复杂多,这也是现在人工智能找不到北的原因。

家附近曾经有只白色的萨摩耶,大约十二岁,挺安静温顺的,基本不怎么吠叫。听说主人身体不好,有人瘫痪在家,于是就放任其在外乱逛。他虽然个头不小,马路什么都过的好好的。可今年某天他过人行横道的时候,一辆左转的车辆速度和它过马路的速度一致,导致它进入了驾驶员的A柱盲区。等萨摩耶反应过来时,车已经对着它冲了过来,左前轮压了一次,左后轮又压了一次……它躺在车后,无助地颤抖着、哀嚎着。两旁的行人呆呆地看着,我也是……车主坐在车里,没开窗没下车,不知道是何反应。过了一会,狗用力翻身站了起来,摇摇晃晃走起来了,准备回家。大家松了一口气,有人笑着说狗没事了。车主也顺便一溜烟开车跑了。可是,狗没走到200米,便慢了下来,实在是走不动了。它的左眼珠早已被汽车压得爆了出来,满嘴的鲜血……于是,它便安静地躺在人行道上,还像平日逛街一样,一声不吭……希望它下辈子,不要走得这么悲惨。


作为智能体,人的视觉和现在的机器视觉是有区别的。其中一个非常特别的区别是,人会根据情况或上下文有意无意地忽略眼中看到的目标。

1999年两位权威心理学专家克里斯托弗·查布里斯(Christopher F.Chabris)和丹尼尔·西蒙斯(Daniel J.Simons)曾做过一次“看不见的大猩猩”的实验。

因为这个传说中心理学史上最强大的“大猩猩实验”,两人因此荣获了2004年的“搞笑诺贝尔奖”。播放的视频中,几个人一起打篮球,要求测试者统计投进篮框的球的数量。当视频播放完,要测试者报告进球数,基本都答对了。但问他们有没有注意到视频中有只人扮的大猩猩从视频中走过,却有不少人没能回想起来。

类似的实验,英国赫特神德大学的心理学怪才、理查德·怀德曼教授(Richard Wiseman)也做过,叫变色纸牌游戏。

两个人在摄像机前表演玩牌的魔术。表演的过程中,身上的衣服、背景、桌布都被换掉了。但由于摄像机关注焦点的变化,观测者只注意了两位“魔术师”手中扑克牌的变化,而视频中已经换掉的材料却压根就没发现。

如果让计算机或利用人工智能算法来跟踪并区分变化内容,会很快发现其中的区别。因为计算机在检测目标时,会考虑像素位置上的强度变化。所以,当视频中出现大猩猩,或者变换桌布、背景、衣服时,都意味着视频帧与帧之间出现了大面积的像素变化。这种变化,很容易超过图像变化程度的阈值, 导致被检测和发现。值得指出的是,检测这类变化也是现在做视频摘要、视频关键内容提取的基本手段之一。

反观人类,人却容易出现忽略目标的情况。其原因在于,当人关注某个目标时,目标将成像于视网膜的焦点即中央凹区域,而目标周围的内容则分布在中央凹的周边,由视杆细胞来负责感知。而视杆细胞主要负责运动,对具体细节不敏感,所以,大猩猩在这一前提下就被大脑视觉中枢视为没有多大意义的像素点运动,甚至被篮球的运动所掩盖。换衣服、桌布等也是类似的原因。

除此以外,也许是因为人类其实是一种能偷懒就会偷懒的智能体。如果能够在不经过缜密思维就能保证大部分判断成功的话,人类会倾向于优先采用更简易的判断,而不是进行过多的细致分析。就像平时走路一样,我们也没有像机器人一样去区分路面的高低差异、纹理差异、光强差异,但却能非常有效和快速的形成决策。即使存在例外,那也是极个别的情况。

这种现象,在日常生活中,是比较危险的。比如交通中,在一个平时很少有人经过的十字路口,驾驶员的关注焦点将是行驶的汽车,其关注点以避让汽车为主。在成年人经常走过的人行横道附近,则驾驶员的关注视角会以成人为主。前者的情况会导致,某天突然出现非机动车或行人时,司机会注意不到,不容易形成应急反应;后者则可能会忽略对矮小目标的关注。

能避免吗?有心理学家指出,如果关注的焦点不变,这种定式思维会一直存在,且很难避免。结果,当驾驶员发现危险来临时,已经缺乏足够的反应时间,极易形成交通事故 。

那如何解决呢?最简单的办法就是不要在经常经过的这些路口形成定式思维。但凡碰到这类路线时,不妨想想,这里可能有条看不见的萨摩耶。不妨多变化下关注的视野,如转下头、变换下关注的视野,最大程度地避免这类事故的发生。

看不见的盲点 

人的视觉不仅有视而不见的特点,也有弥补先天不足的能力。我们的视神经感受周围环境后,还需要将信号送到大脑。送的方式挺聪明,大脑将输送信号的神经元像头发一样扎成一股,左边一股,右边一股,在每个眼球视网膜中央凹偏外约20度处集中起来,向大脑输送信号。于是,这个位置就没有感光细胞,形成了生理性盲点,如图1所示。

图1:人眼构造,视神经传输位置没有感光细胞

图2: 生理性盲点测试图

要检测盲点的具体位置,不妨试试图2这个经典的盲点测试图。首先,捂住左眼,用右眼盯着图上的圆点,将手机逐渐拉远或拉近,会发现在某个位置时十字会消失。这个位置,对应于你的右眼盲点。类似的,捂住右眼,用左眼盯着右边的十字形,移动手机远近,会发现圆点在某个位置消失了。它对应于左眼的盲点位置。

虽然有盲点,所幸人是双目视觉,所以两只眼睛的盲区会通过双目视觉来相互弥补。结果,日常生活中,人是感觉不到盲点的存在。不过,如果单眼存在眼疾,如患上白内障,那盲点的影响就比较大了,毕竟有个位置的信息是缺失的,这就需要通过多调整视角来消解这个困扰。

看不见的笔 -- 单眼与复眼

除了盲点外,还有种情况,人也会对目标视而不见。各位不妨试着拿起一支笔,竖直放在左眼前面。 一开始,你会感受到笔对视野造成的遮挡。再将眼睛盯着远处某目标,将笔缓慢远离眼睛,你将会发现这只笔并没有对你看远处的景像形成任何障碍,笔似乎凭空消失了。显然,这并非是生理性盲点造成的。它和人的视网膜结构有关。换句话说,它可以从单眼与复眼的关系来解释。 

众所周知,人有两只眼睛,而昆虫则是由非常多的小眼睛组成的,俗称复眼,如蜻蜓、苍蝇都有复眼。如果是昆虫的复眼,那么笔是不会对想观测的目标形成遮挡的。因为昆虫的整体视觉是可以通过小眼睛的视角拼接而成,少数几只眼睛的被遮挡不影响全局。可是人是双目视觉,为什么也会有类似的情况呢?实际上,人的视网膜上的感光细胞数量众多,每个细胞都分担了一部分的视觉检测。在处理笔遮挡的任务时,也会通过感光细胞间的相互填充,实现类似复眼的功能。

但要注意的是,人是不可能像昆虫那样演化出复眼的。因为复眼上的每只眼睛,管的视角和频率都很窄。如果要在人的头部形成如同昆虫一样具有全角度检测能力的复眼,著名物理学家费恩曼曾经做过初略的计算,他的结论是复眼的大小可能会超过现在人类头部的尺寸,结果头很可能承受不了眼睛的重量。

当然,除了这些情况看不见外,人过于关注某些人或事情时会对周围情形视而不见, 人不关注某些人或事情时也会视而不见,或熟视无睹。这些依赖于情感和心灵的视而不见和熟视无睹,比起单从视觉上发生的,就要复杂多了,也是人工智能目前还完全找不到北的问题之一。

参考文献:

1、克里斯托弗 · 查布利斯/丹尼尔 · 西蒙斯[著],段然[译]. 看不见的大猩猩. 北京大学出版社,2011年

2、费恩曼, 莱顿, 桑兹著. 郑永令, 华宏鸣, 吴子仪等译. 费恩曼物理学讲义(第1卷). 上海科学技术出版社, 2013年                                             

来源:混合智能专委会

中国认知计算与混合智能学术大会报名通道已开启,欢迎广大国内外学者及相关领域各界人士参会,期待您的到来

往期文章推荐

人工智能名人堂第49期 | 斯坦福研究院名人堂成员:Peter E. Ha

🔗【通知】关于开展2018年CAA优秀博士学位论文奖励及推荐工作的通知

🔗【第六期讲习班】“人工智能与智能控制”  提前注册享受优惠价格!

🔗【通知】关于举办2018新一代人工智能高峰论坛的通知

🔗【通知】2018全国第二十三届 自动化应用技术学术交流会会议通知

🔗【讲习班通知】第6期智能自动化学科前沿讲习班将于7月28日开讲

🔗【CAC2018】中国自动化大会截稿时间变更至8月30日的通知

🔗【招募】中国自动化学会招募高校志愿者啦!

🔗【通知】关于2018年度CAA科学技术奖励推荐工作的通知

🔗【重磅】顶级AI国际会议IJCAI ECAI 18在瑞典斯德哥尔摩召开

🔗【通知】第一届中国认知计算与混合智能学术大会 会议通知

登录查看更多
0

相关内容

张军平,复旦大学 复旦大学计算机科学技术学院教授、博士生导师。主要研究方向是人工智能、机器学习、图像/音乐处理、生物认证及智能交通。目前主持科技部项目一项和国家自然基金面上项目一项。他为人工智能著名期刊IEEEIntelligentSystems编委,为国内权威期刊《软件学报》、《自动化学报》、《模式识别与人工智能》等责任编辑。他是中国自动化学会混合智能专业委员会副主任,中国人工智能学会机器学习专委会常委。张军平教授发表近100篇高质量论文。个人主页:http://www.pami.fudan.edu.cn/~jpzhang/
最新《深度学习行人重识别》综述论文,24页pdf
专知会员服务
80+阅读 · 2020年5月5日
基于视觉的三维重建关键技术研究综述
专知会员服务
160+阅读 · 2020年5月1日
【MIT】Yufei Zhao《图论与加法组合学》,177页pdf
专知会员服务
49+阅读 · 2020年4月27日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
专知会员服务
206+阅读 · 2019年8月30日
深度学习局限何在?图网络的出现并非偶然
机器之心
6+阅读 · 2019年1月24日
李飞飞:让机器有分辨事物的“眼睛”
人工智能学家
3+阅读 · 2018年4月13日
CCCF专栏:李航 | 人工智能的未来 ——记忆、知识、语言
中国计算机学会
7+阅读 · 2018年3月16日
【深度】脆弱的神经网络:UC Berkeley详解对抗样本生成机制
GAN生成式对抗网络
5+阅读 · 2018年2月11日
人工神经网络是否模拟了人类大脑?
数说工作室
9+阅读 · 2017年7月19日
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
8+阅读 · 2018年4月8日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
相关资讯
深度学习局限何在?图网络的出现并非偶然
机器之心
6+阅读 · 2019年1月24日
李飞飞:让机器有分辨事物的“眼睛”
人工智能学家
3+阅读 · 2018年4月13日
CCCF专栏:李航 | 人工智能的未来 ——记忆、知识、语言
中国计算机学会
7+阅读 · 2018年3月16日
【深度】脆弱的神经网络:UC Berkeley详解对抗样本生成机制
GAN生成式对抗网络
5+阅读 · 2018年2月11日
人工神经网络是否模拟了人类大脑?
数说工作室
9+阅读 · 2017年7月19日
相关论文
Deformable Style Transfer
Arxiv
14+阅读 · 2020年3月24日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
8+阅读 · 2018年4月8日
Arxiv
6+阅读 · 2018年2月26日
Top
微信扫码咨询专知VIP会员