Most existing work that grounds natural language phrases in images starts with the assumption that the phrase in question is relevant to the image. In this paper we address a more realistic version of the natural language grounding task where we must both identify whether the phrase is relevant to an image and localize the phrase. This can also be viewed as a generalization of object detection to an open-ended vocabulary, introducing elements of few- and zero-shot detection. We propose an approach for this task that extends Faster R-CNN to relate image regions and phrases. By carefully initializing the classification layers of our network using canonical correlation analysis (CCA), we encourage a solution that is more discerning when reasoning between similar phrases, resulting in over double the performance compared to a naive adaptation on three popular phrase grounding datasets, Flickr30K Entities, ReferIt Game, and Visual Genome, with test-time phrase vocabulary sizes of 5K, 32K, and 159K, respectively.


翻译:将图像中的自然语言短语作为自然语言短语依据的多数现有工作,首先假设有关短语与图像相关。在本文中,我们处理的自然语言基础任务的更现实版本,我们必须同时确定该短语是否与图像相关,并将其本地化。这也可以被视为将物体探测概括到一个开放式词汇中,引入了少发和零发检测的要素。我们为这项任务提出了一个方法,将快速R-CNN与图像区域和短语联系起来。我们通过使用卡通相关分析(CCA)仔细初始化我们的网络分类层,我们鼓励一种解决办法,在对类似短语进行推理时,这种解决办法更能分辨,导致性能超过一倍,而对于三种流行的词基数据集(Flick30K实体、ReferitI Game和视觉基因组)则进行天性调整,测试时词汇大小分别为5K、32K和159K。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
专知会员服务
60+阅读 · 2020年3月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
相关资讯
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】直接未来预测:增强学习监督学习
机器学习研究会
6+阅读 · 2017年11月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
相关论文
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
3+阅读 · 2017年11月21日
Top
微信扫码咨询专知VIP会员