UCSB研究发现计算机与人类视觉差异，用人眼搜索策略提升计算机视觉

2017 年 9 月 29 日 新智元

2017 年 11 月 8 日，在北京国家会议中心举办的 AI WORLD 2017 世界人工智能大会开放售票！早鸟票 5 折抢票倒计时 9 天开抢。还记得去年一票难求的AI WORLD 2016盛况吗？今年，我们邀请了冷扑大师”之父 Tuomas 亲临现场，且谷歌、微软、亚马逊、BAT、讯飞、京东和华为等企业重量级嘉宾均已确认出席。

AI WORLD 2017 世界人工智能大会“AI 奥斯卡”AI Top 10 年度人物、 AI Top10 巨星企业、AI Top10 新星企业、AI Top 10 创投机构、AI 创新产品五个奖项全部开放投票。谁能问鼎？你来决定。

关于大会，请关注新智元微信公众号或访问活动行页面：http://www.huodongxing.com/event/2405852054900?td=4231978320026了解更多

1新智元编译

来源：kurzweilai.net

编译：neko

【新智元导读】 加州大学圣巴巴拉分校的研究人员发现，当人类在寻找一个特定的物体时，经常容易看漏大小与场景的其余部分不相匹配的物体。他们研究这一现象，试图更好地理解人类和计算机在进行视觉搜索时的区别，提出利用人类的视觉搜索策略提高计算机视觉能力。相关研究发表在最新一期 Current Biology 杂志。

在继续阅读之前，请观察下图，找出图中所有的牙刷。

你注意到图中左边那支巨大的牙刷了吗？可能没有。根据加州大学圣巴巴拉分校心理学与脑科学系的科学家们的说法，这是因为当人类在寻找一个特定的物体时，经常容易看漏大小与场景的其余部分不相匹配的物体。

科学家们正在研究这一现象，试图更好地理解人类和计算机在进行视觉搜索时的区别。他们的发现发表在最新一期 Current Biology 杂志上。

藏在眼皮底下

“当某些东西以不同寻常的大小出现时，你会更经常地看漏，因为你的大脑会自动忽略它，”UCSB教授Miguel Eckstein说，他专门研究计算人类视觉（computational human vision）、视觉注意力和搜索。

该实验使用的是计算机生成的图像中的普通物体的场景，这些图像的颜色、角度和大小不一，并混进“目标缺失”的场景。研究人员要求60名被试者在这些图像中搜索特定物品(例如：牙刷、停车计时器、鼠标)，并使用眼球追踪软件监控他们的视线。

研究人员发现，当物体大小与寻常大小差别很大（太大或太小）时，人们往往会更容易忽略目标，哪怕他们已经直直地盯着目标对象。

相比之下，根据科学家们的报告，计算机视觉不会出现这个问题。但是，在实验中，研究人员发现，最先进的计算机视觉技术——深度神经网络——也有其自身的局限性。

人类搜索策略可以改进计算机视觉

深度学习算法将红色框里的键盘错误地识别为手机（来源：UC Santa Barbara）

例如，一个CNN深度学习神经网络错误地将计算机键盘识别为手机，它基于形状的相似性，以及物体相对手的位置（手机经常被拿在手中）。但对人类来说，这个物体的大小（相对于人的手）显然与手机是不一致的。

研究人员在论文中指出：“这种策略可以让人在快速做决策时减少失误。”

Eckstein说：“我们的想法是，当你第一次看到一个场景时，你的大脑会在几百毫秒甚至更短的时间里快速处理这个场景的信息，然后你会使用这些信息来引导你寻找物体出现的典型位置。”“同时，你也会把注意力集中在那些与你所寻找的物体大小一致的物体上。”

也就是说，人类的大脑利用物体间的关系来引导他们的眼睛——这是一个快速处理场景信息的有用策略，可以消除干扰，减少误报。

根据研究人员的说法，通过利用大脑用来减少误报的一些技巧，这一发现可能对改善计算机视觉有所启发。

未来的研究

Eckstein说：“有一些理论认为，患有自闭症谱系障碍的人更关注局部的场景信息，而不是整体的结构。”Eckstein正在计划一项后续研究，他说：“因此，有一种可能性是，患有自闭症谱系障碍的人可能更不容易看漏那些被错误放大的物体，但在我们进行这项研究之前，尚没法确定这一点。”

接下来，研究人员将关注当我们看到错误放大的物体时发生的大脑活动。

博士后研究员Lauren Welbourne说：“有许多研究已经确定了大脑中处理场景和物体的区域，现在研究人员正在努力了解这些场景和物体的哪些特定属性被呈现给大脑的这些区域。”目前的研究主要集中在物体是如何在大脑皮层上呈现，以及场景背景如何影响物体的感知。

他说：“所以我们要做的是找出这些大脑区域对在一个场景中正确或错误地缩放的物体是如何做出反应的。这可能有助于我们确定哪些区域对使我们看漏被错误放大的物体有影响。”

论文：Humans, but Not Deep Neural Networks, Often Miss Giant Targets in Scenes

摘要：

即使机器视觉方面取得了巨大的进步，仍然无法比得上动物在复杂场景的视觉搜索方面的能力。动物，从蜜蜂、鸟类到人类，他们学习视觉环境中的统计关系，并利用来指导和帮助他们寻找目标。在这个研究里，我们调查了人类利用来快速获取有关场景的信息的一种新方式，即利用目标物体的一般大小来指导搜索。我们发现，当物体的大小与场景的其余部分格格不入时，他们往往会忽略该目标。即使目标变得更大、更突出，观察者即使盯着目标也无法察觉。相反，我们发现，最先进的深度神经网络在搜索大小不一致的目标时不会表现出这样的缺陷，但与人类不同的是，它们会被目标形状的干扰所迷惑。因此，当目标物体与场景的大小不一致时，看漏了目标并不是人类的缺陷；相反，它是一种有用的策略的副产品，即大脑能够快速减少潜在的干扰物的影响。

原文：http://www.kurzweilai.net/human-vs-deep-neural-network-performance-in-object-recognition

【扫一扫或点击阅读原文抢购五折“早鸟票”】

AI WORLD 2017 世界人工智能大会购票二维码：