In this paper, we are tackling the weakly-supervised referring expression grounding task, for the localization of a referent object in an image according to a query sentence, where the mapping between image regions and queries are not available during the training stage. In traditional methods, an object region that best matches the referring expression is picked out, and then the query sentence is reconstructed from the selected region, where the reconstruction difference serves as the loss for back-propagation. The existing methods, however, conduct both the matching and the reconstruction approximately as they ignore the fact that the matching correctness is unknown. To overcome this limitation, a discriminative triad is designed here as the basis to the solution, through which a query can be converted into one or multiple discriminative triads in a very scalable way. Based on the discriminative triad, we further propose the triad-level matching and reconstruction modules which are lightweight yet effective for the weakly-supervised training, making it three times lighter and faster than the previous state-of-the-art methods. One important merit of our work is its superior performance despite the simple and neat design. Specifically, the proposed method achieves a new state-of-the-art accuracy when evaluated on RefCOCO (39.21%), RefCOCO+ (39.18%) and RefCOCOg (43.24%) datasets, that is 4.17%, 4.08% and 7.8% higher than the previous one, respectively.


翻译:在本文中,我们正在处理受监管不力的参考表达基础任务, 以便根据查询句将图像区域与查询之间无法进行绘图的查询对象定位到一处, 以便根据询问句, 在培训阶段无法提供图像区域与查询之间的映像和查询。 在传统方法中, 选择一个与查询表达方式最匹配的对象区域, 然后从选定区域重建查询句, 重建差异可以作为反反向调整的损失。 但是, 现有的方法进行匹配和重建, 因为它们忽视了匹配正确性未知的事实。 为了克服这一限制, 此处设计了一个有区别性更高的三角, 以此将查询转换成一个或多个有区别的三角。 根据有区别的三角区域, 我们进一步建议三轨级匹配和重建模块, 这些模块的重量较轻,但对于薄弱的超强培训有效, 使得它比先前的状态方法要轻三倍和更快。 为了克服这一限制, 我们工作的一个重要优点是其优性表现, 尽管前者的精确度是简单和精确的 CO-% 。 。 具体地说, Ref, 拟议的方法实现了一种状态( CO-% ) 和Re- 的精确地说, Re- re- 的精确地说, Re- 和Re- re- 的 实现一种状态, Re- o- 数据- o- b- 的 的 的 和Re- o- b- b- b- b- b- b- b- b- b- b- b- b- b- b- b- b- b- d- d- d- d- d- d- d- d- b- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d- d-

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年6月12日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
已删除
将门创投
8+阅读 · 2019年3月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月2日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
已删除
将门创投
8+阅读 · 2019年3月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员