Nowadays, there is an abundance of data involving images and surrounding free-form text weakly corresponding to those images. Weakly Supervised phrase-Grounding (WSG) deals with the task of using this data to learn to localize (or to ground) arbitrary text phrases in images without any additional annotations. However, most recent SotA methods for WSG assume the existence of a pre-trained object detector, relying on it to produce the ROIs for localization. In this work, we focus on the task of Detector-Free WSG (DF-WSG) to solve WSG without relying on a pre-trained detector. We directly learn everything from the images and associated free-form text pairs, thus potentially gaining an advantage on the categories unsupported by the detector. The key idea behind our proposed Grounding by Separation (GbS) method is synthesizing `text to image-regions' associations by random alpha-blending of arbitrary image pairs and using the corresponding texts of the pair as conditions to recover the alpha map from the blended image via a segmentation network. At test time, this allows using the query phrase as a condition for a non-blended query image, thus interpreting the test image as a composition of a region corresponding to the phrase and the complement region. Using this approach we demonstrate a significant accuracy improvement, of up to $8.5\%$ over previous DF-WSG SotA, for a range of benchmarks including Flickr30K, Visual Genome, and ReferIt, as well as a significant complementary improvement (above $7\%$) over the detector-based approaches for WSG.


翻译:目前,有大量与这些图像相对应的图像和周围自由格式文本数据。 微弱监督的语句环绕( WSG) 的任务是利用这些数据学习将图像中的任意文字短语本地化( 或到地面), 而不增加任何附加说明。 然而, 最近WSG 的 SotA 方法假定存在一个预先培训的物体探测器, 依靠它来生成本地化的路径。 在这项工作中, 我们侧重于无检测的 WSG (DF- WSG) 的任务, 以不依赖预先训练的探测器解决 WSG 。 我们直接从图像和相关的自由格式文本组( WSG) 中学习了一切, 从而有可能在没有探测器支持的类别上获得优势 。 我们提议的“ 隔离( GbS) ” 方法的关键理念是将“ 文字与图像区域” 结合, 随机地将任意的图像配对, 并用对配对的精度的文本作为条件从混成的图像中恢复阿尔法地图, 通过一个预设的探测器。 我们直接从图像组合网络直接学习所有内容, 补充了所有图像组配对数 。 因此, 将一个测试, 将一个不是 SG 区域 测试, 区域 。

0
下载
关闭预览

相关内容

【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
已删除
将门创投
7+阅读 · 2020年3月13日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
4+阅读 · 2018年10月5日
VIP会员
相关VIP内容
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
相关资讯
已删除
将门创投
7+阅读 · 2020年3月13日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员