AI学会了视觉推理,“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

2018 年 3 月 31 日 量子位 关注前沿科技
李林 发自 凹非寺
量子位 出品 | 公众号 QbitAI

人类有一种非常强大的能力:脑补。

这张照片在人类眼中,左下角的一小片棕黄黑灰就是一匹活生生的马——这个姿势和场景,当然是骑马啦!

但对于大部分的算法来说,图上有两个人,就是两个人,谁知道左下角那团东西是什么,谁知道他们俩在干~什~么~

一篇新鲜出炉的CVPR 2018论文Iterative Visual Reasoning Beyond Convolutions,就尝试着将人类的“脑补”能力带到算法中。

会脑补的算法

这项研究由卡耐基梅隆大学(CMU)和Google合作完成,作者有Facebook研究员陈鑫磊(论文是他博士毕业前完成的)、Google的李佳和李飞飞、以及陈鑫磊的导师Abhinav Gupta。

他们所研究的“脑补”能力,按论文中比较严谨学术正式的说法,是对空间和语义的视觉推理。有了这种能力,计算机就能在一张图像中准确识别更多的物体。

比如说面对这样一个场景,没有空间语义推理能力的算法只能凭车的形状轮廓来辨认它是小汽车还是大巴,在上面的窗户中,也只能认出没被遮挡的那些。

借助空间推理,和三扇窗户排成一排又被局部遮挡住的那个物体,也会被认作是窗户;借助语义推理,通身黄色上面还带灯牌的大巴,就会被识别成校车;空间和语义推理结合起来,算法就能认出小汽车窗户里那个模模糊糊的影子,其实是个人。

我们来看一看比较具体的例子:

比如上图,深蓝色标注的“鼠标”,就是普通神经网络识别不出来,而这种会脑补的新方法能识别出来的。它在图上很模糊,分辨率非常低,但是可以根据周围的物体推断出来。

根据图中的洗衣机,也可以推断出深蓝色标出的洗涤剂槽。

同样一张图像,会脑补的算法从中认出的物体,就比普通神经网络更多。也就是说,它从图像上框出各个物体并识别出来的能力更好。

论文的极为作者用“框出物体并识别”的区域分类任务,给这种脑补算法跑了个分:

与普通的卷积神经网络相比,这种模型在ADE数据集上,每类平均准确率提升了8.4%,而增加网络深度只能提升1%左右。在COCO数据集上,这种模型能将准确率提升3.7%。

怎么做到的?

他们在普通的卷积神经网络上,加上了一个视觉推理框架,由两个核心模块组成:一个是局部模块,运用空间记忆来存储之前的认识,用卷积神经网络来推理;一个是全局模块,基于图进行推理,将区域和类视为图中的节点,通过在它们之间传递信息来进行推理。

详细来说,全局模块有三个部件,一个以类别为节点的知识图谱,一个以图像中的区域为节点、以区域间的空间关系为边界的区域图,和一个为区域分配类别的分配图。

最终,所有模块每次迭代的预测和注意力机制结合起来,就得出了最终的预测结果。

失败花絮

当然,也有失败的时候。

比如说床头柜上可能会放个遥控器这件事,这个算法就和普通的卷积神经网络一样get不到。

学神(们)

这篇论文的四位作者中,二三作是你们非常熟悉的两位女神李佳和李飞飞啦,现在都在Google的云计算部门。两位的履历和成就,大概也不需要量子位再讲一遍了。

四作Abhinav Gupta是卡耐基梅隆大学计算机系副教授,目前主要在研究如何表征视觉世界、语言和视觉之间、行为与对象之间如何联系等问题。

一作陈鑫磊,是众多同学大概都会很崇拜的学神榜样。

这位小哥哥今年2月在卡耐基梅隆大学(CMU)获得了博士学位,现在是Facebook AI研究院的研究员。在浙江大学读本科的时候,他就已经发表过AAAI、CVPR、CIKM等顶会论文了。

读博期间,他先后在微软研究院、Google VisCAM组和Google Cloud AI团队实习过。

他的博士学位论文Visual Knowledge Learning,研究了图像的背景知识在计算机视觉系统理解图像过程中的重要性。这篇论文比较系统地论述了计算机如何自动化、可扩展地学习显式和隐式视觉知识,以及如怎样运用视觉知识来推理。

来这里,可以系统地膜拜一下学神:http://xinleic.xyz/

最重要的是

论文地址,当然必不可少~https://www.arxiv-vanity.com/papers/1803.11189/

以及小哥哥的博士论文地址:http://xinleic.xyz/papers/thesis.pdf

加入社群

量子位AI社群15群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot6入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot6,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


登录查看更多
6

相关内容

CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
36+阅读 · 2020年6月17日
【CVPR2020】视觉推理-可微自适应计算时间
专知会员服务
13+阅读 · 2020年4月28日
【北京大学】CVPR 2020 | PQ-NET:序列化的三维形状生成网络
五篇 ICCV 2019 的【图神经网络(GNN)+CV】相关论文
专知会员服务
15+阅读 · 2020年1月9日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
CVPR 2019 | CSP行人检测:无锚点框的检测新思路
机器之心
3+阅读 · 2019年4月13日
【CVPR2018】物体检测中的结构推理网络
深度学习大讲堂
6+阅读 · 2018年7月30日
AI都可以将文字轻松转成图像
计算机视觉战队
4+阅读 · 2018年7月24日
CVPR 2018 最佳论文解读:探秘任务迁移学习
PaperWeekly
6+阅读 · 2018年6月25日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关资讯
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
CVPR 2019 | CSP行人检测:无锚点框的检测新思路
机器之心
3+阅读 · 2019年4月13日
【CVPR2018】物体检测中的结构推理网络
深度学习大讲堂
6+阅读 · 2018年7月30日
AI都可以将文字轻松转成图像
计算机视觉战队
4+阅读 · 2018年7月24日
CVPR 2018 最佳论文解读:探秘任务迁移学习
PaperWeekly
6+阅读 · 2018年6月25日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
Top
微信扫码咨询专知VIP会员