Thanks to the advantages of the friendly annotations and the satisfactory performance, Weakly-Supervised Semantic Segmentation (WSSS) approaches have been extensively studied. Recently, the single-stage WSSS was awakened to alleviate problems of the expensive computational costs and the complicated training procedures in multi-stage WSSS. However, results of such an immature model suffer from problems of \emph{background incompleteness} and \emph{object incompleteness}. We empirically find that they are caused by the insufficiency of the global object context and the lack of the local regional contents, respectively. Under these observations, we propose a single-stage WSSS model with only the image-level class label supervisions, termed as \textbf{W}eakly-\textbf{S}upervised \textbf{F}eature \textbf{C}oupling \textbf{N}etwork (\textbf{WS-FCN}), which can capture the multi-scale context formed from the adjacent feature grids, and encode the fine-grained spatial information from the low-level features into the high-level ones. Specifically, a flexible context aggregation module is proposed to capture the global object context in different granular spaces. Besides, a semantically consistent feature fusion module is proposed in a bottom-up parameter-learnable fashion to aggregate the fine-grained local contents. Based on these two modules, \textbf{WS-FCN} lies in a self-supervised end-to-end training fashion. Extensive experimental results on the challenging PASCAL VOC 2012 and MS COCO 2014 demonstrate the effectiveness and efficiency of \textbf{WS-FCN}, which can achieve state-of-the-art results by $65.02\%$ and $64.22\%$ mIoU on PASCAL VOC 2012 \emph{val} set and \emph{test} set, $34.12\%$ mIoU on MS COCO 2014 \emph{val} set, respectively. The code and weight have been released at:~\href{https://github.com/ChunyanWang1/ws-fcn}{WS-FCN}.


翻译:感谢友好标注和令人满意的性能,弱监督语义分割(WSSS)方法得到了广泛研究。近期单阶段WSSS被提出以缓解多阶段WSSS中计算成本昂贵和训练过程复杂的问题。然而,这样一个不成熟的模型产生的结果会遭受背景不完整和物体不完整等问题困扰。我们通过经验发现,这是由全局物体上下文不足和局部区域内容缺失所引起的。考虑到这些发现,我们提出一种只使用图像级类别标签监督的单阶段WSSS模型,称为弱监督特征耦合网络(WS-FCN)。它可以捕捉由相邻特征网格形成的多尺度上下文,并将低层特征中的精细空间信息编码到高层特征中。具体而言,提出了一个灵活的上下文聚合模块,以在不同粒度空间中捕获全局物体上下文。此外,采用自下而上的可学习参数方式提出了一个语义一致的特征融合模块,以聚合精细的局部内容。基于这两个模块,WS-FCN采用自监督端到端训练。在具有挑战性的PASCAL VOC 2012和MS COCO 2014上进行了广泛的实验,表明了WS-FCN的有效性和高效性,可以在PASCAL VOC 2012的验证集和测试集上分别达到65.02%和64.22%的mIoU,以及在MS COCO 2014的验证集上达到34.12%的mIoU,显示出WS-FCN的最先进性。代码和权重已经在\href{https://github.com/ChunyanWang1/ws-fcn}{WS-FCN}上公开发布。

0
下载
关闭预览

相关内容

NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
17+阅读 · 2021年11月25日
【AAAI2021】基于组间语义挖掘的弱监督语义分割
专知会员服务
16+阅读 · 2021年1月19日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月2日
Arxiv
0+阅读 · 2023年6月1日
VIP会员
相关VIP内容
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
17+阅读 · 2021年11月25日
【AAAI2021】基于组间语义挖掘的弱监督语义分割
专知会员服务
16+阅读 · 2021年1月19日
相关基金
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员