李飞飞团队CVPR论文:让AI识别语义空间关系(附论文、实现代码)

2018 年 6 月 30 日 数据派THU

本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处。

本文共1000,建议阅读5分钟

斯坦福视觉实验室即将在CVPR 2018上发表的一篇关于研究“指称关系”任务的论文。



“”保安,保安!抓住那个砸玻璃的人!"


对于人类保安来说,理解这个指令是自然而然毫无难度的事。但机器就不一样了:它们能从画面中认出人人人人人,但究竟哪一个才是“砸玻璃的人”呢?


李飞飞领导的斯坦福视觉实验室即将在CVPR 2018上发表的一篇论文 Referring Relationships,研究的就是这个问题。


这篇论文提出的“指称关系”任务,是给计算机一个“主-谓-宾”结构的“关系”描述和一张图,让它能将主体(主语对应的那个东西)和客体(宾语对应的那个东西)定位出来。


比如说:



他们要让计算机在这样一个场景中,根据“person - kicking - ball(人在踢球)”这个描述,定位出“踢球的人”和“球”,根据“person - guarding - goal(人在守门)”这个描述,定位出“守门的人”和“球门”。


正确圈出主体和客体,计算机内心需要经历这样一个过程:



如上图所示,整个过程的第一步是用CNN提取图像特征,供算法用来对主体和客体分别进行初步定位。


不过,不是所有的主体和客体都那么容易找出来,比如说人很好识别,但球门就不一定了。几位研究员所用的方法,是先找到主客体之间的关系,这样只要定位出其中一个,就很容易找到另一个。


在这个过程中需要对谓语建模,也就是搞清楚对主客体关系的描述。他们把谓语看作主体和客体之间的注意力移动,借此找出主客体之间的关系。


从上面的流程图我们也可以看出,根据主体和构建出来的关系描述,可以推断出来注意力转移到的区域,找到客体应该在的位置,并据此修改图像特征。也可以根据注意力转移,从客体推断出主体位置。这个过程,称为predicate shift。


运用predicate shift过程在主体和客体之间反复传递消息,最终就能将这两个实体定位出来。



“某人在另一个某人的左边”,这种描述中的两个人,也可以用这种方法定位出来。



“拿着杯子的人”、“站在滑板上的人”等等也都没问题。


李飞飞团队在CLEVR、VRD和Visual Genome三个视觉关系数据集上评估了自己的模型,成绩如下:



想要了解更多细节,请进入亲自读论文撸代码环节~


论文链接:

https://arxiv.org/abs/1803.10362


Keras+TensorFlow实现:

https://github.com/StanfordVL/ReferringRelationships


根据斯坦福视觉实验室主页介绍,他们在CVPR 2018上总共发表了三篇论文,除了今天介绍的这一篇之外,还有:


  • What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets

    De-An Huang, Vignesh Ramanathan, Dhruv Mahajan, Lorenzo Torresani, Manohar Paluri, Li Fei-Fei, and Juan Carlos Niebles

    CVPR 2018 (spotlight)


  • Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Video

    De-An Huang, Shyamal Buch, Lucio Dery, Animesh Garg, Li Fei-Fei, and Juan Carlos Niebles

    CVPR 2018 (oral)


这两篇论文的PDF版还未放出,我们会持续关注~


作者系网易新闻·网易号“各有态度”签约作者

登录查看更多
3

相关内容

CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
94+阅读 · 2020年6月19日
专知会员服务
110+阅读 · 2020年3月12日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
36+阅读 · 2020年1月10日
近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
33+阅读 · 2020年1月10日
近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码
专知会员服务
33+阅读 · 2020年1月10日
CVPR 2020 | 深度视觉推理2.0:组合式目标指代理解
AI科技评论
15+阅读 · 2020年3月20日
CVPR 2018中国论文分享会 之「人物重识别及追踪」
AI科技评论
4+阅读 · 2018年6月3日
CVPR 2018 笔记
计算机视觉战队
3+阅读 · 2018年5月25日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
已删除
将门创投
3+阅读 · 2017年9月12日
Arxiv
5+阅读 · 2020年3月26日
Polarity Loss for Zero-shot Object Detection
Arxiv
3+阅读 · 2018年11月22日
VIP会员
相关VIP内容
相关资讯
CVPR 2020 | 深度视觉推理2.0:组合式目标指代理解
AI科技评论
15+阅读 · 2020年3月20日
CVPR 2018中国论文分享会 之「人物重识别及追踪」
AI科技评论
4+阅读 · 2018年6月3日
CVPR 2018 笔记
计算机视觉战队
3+阅读 · 2018年5月25日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
已删除
将门创投
3+阅读 · 2017年9月12日
Top
微信扫码咨询专知VIP会员