In this work, we investigate performing semantic segmentation solely through the training on image-sentence pairs. Due to the lack of dense annotations, existing text-supervised methods can only learn to group an image into semantic regions via pixel-insensitive feedback. As a result, their grouped results are coarse and often contain small spurious regions, limiting the upper-bound performance of segmentation. On the other hand, we observe that grouped results from self-supervised models are more semantically consistent and break the bottleneck of existing methods. Motivated by this, we introduce associate self-supervised spatially-consistent grouping with text-supervised semantic segmentation. Considering the part-like grouped results, we further adapt a text-supervised model from image-level to region-level recognition with two core designs. First, we encourage fine-grained alignment with a one-way noun-to-region contrastive loss, which reduces the mismatched noun-region pairs. Second, we adopt a contextually aware masking strategy to enable simultaneous recognition of all grouped regions. Coupled with spatially-consistent grouping and region-adapted recognition, our method achieves 59.2% mIoU and 32.4% mIoU on Pascal VOC and Pascal Context benchmarks, significantly surpassing the state-of-the-art methods.


翻译:在本研究中,我们探讨仅通过训练图像-句子对来执行语义分割。由于缺乏密集的注释,现有的文本监督方法只能学习通过像素不敏感的反馈将图像分组为语义区域。因此,它们的分组结果粗糙,经常包含小的虚假区域,限制了分割方法的上限性能。另一方面,我们观察到,自监督模型的分组结果更具语义一致性,打破了现有方法的瓶颈。基于此,我们引入了结合自监督空间一致性分组和文本监督语义分割的方法。考虑到部分分组结果,我们进一步将一个文本监督模型从图像级别适应到区域级别识别,采用了两个核心设计:首先,我们采用单向名词到区域对比损失,鼓励精细对齐,减少不匹配的名词-区域对;其次,我们采用上下文感知掩蔽策略,使得同时识别所有分组区域成为可能。结合空间一致性分组和区域适应识别,我们的方法在Pascal VOC和Pascal Context基准上分别实现了59.2%和32.4%的mIoU,显著超越了现有的最先进方法。

0
下载
关闭预览

相关内容

【AAAI2021】基于组间语义挖掘的弱监督语义分割
专知会员服务
15+阅读 · 2021年1月19日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
【泡泡一分钟】端到端的弱监督语义对齐
泡泡机器人SLAM
53+阅读 · 2018年4月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
相关VIP内容
【AAAI2021】基于组间语义挖掘的弱监督语义分割
专知会员服务
15+阅读 · 2021年1月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员