Reasoning about the relationships between object pairs in images is a crucial task for holistic scene understanding. Most of the existing works treat this task as a pure visual classification task: each type of relationship or phrase is classified as a relation category based on the extracted visual features. However, each kind of relationships has a wide variety of object combination and each pair of objects has diverse interactions. Obtaining sufficient training samples for all possible relationship categories is difficult and expensive. In this work, we propose a natural language guided framework to tackle this problem. We propose to use a generic bi-directional recurrent neural network to predict the semantic connection between the participating objects in the relationship from the aspect of natural language. The proposed simple method achieves the state-of-the-art on the Visual Relationship Detection (VRD) and Visual Genome datasets, especially when predicting unseen relationships (e.g. recall improved from 76.42% to 89.79% on VRD zero-shot testing set).


翻译:对图像中对象配对之间的关系进行解释是全面了解场景的关键任务。 大部分现有作品将此任务视为纯粹的视觉分类任务: 每种类型的关系或短语都根据提取的视觉特征归类为关系类别。 但是, 每种类型的关系都有各种各样的物体组合, 每一对对象都有不同的相互作用。 为所有可能的关系类别获得足够的培训样本是困难和昂贵的。 在这项工作中, 我们提出了一个自然语言指导框架来解决这一问题。 我们提议使用一个通用的双向经常性神经网络从自然语言的方面预测参与对象之间的语义联系。 提议的简单方法可以实现视觉关系探测( VRD) 和视觉基因组数据集方面的最新艺术, 特别是在预测不可见关系类别时( 例如, 记得VRD零光测试集上从76.42%提高到89.79% ) 。

3
下载
关闭预览

相关内容

[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Arxiv
9+阅读 · 2018年4月12日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员