Existing semantic segmentation approaches are often limited by costly pixel-wise annotations and predefined classes. In this work, we present CLIP-S$^4$ that leverages self-supervised pixel representation learning and vision-language models to enable various semantic segmentation tasks (e.g., unsupervised, transfer learning, language-driven segmentation) without any human annotations and unknown class information. We first learn pixel embeddings with pixel-segment contrastive learning from different augmented views of images. To further improve the pixel embeddings and enable language-driven semantic segmentation, we design two types of consistency guided by vision-language models: 1) embedding consistency, aligning our pixel embeddings to the joint feature space of a pre-trained vision-language model, CLIP; and 2) semantic consistency, forcing our model to make the same predictions as CLIP over a set of carefully designed target classes with both known and unknown prototypes. Thus, CLIP-S$^4$ enables a new task of class-free semantic segmentation where no unknown class information is needed during training. As a result, our approach shows consistent and substantial performance improvement over four popular benchmarks compared with the state-of-the-art unsupervised and language-driven semantic segmentation methods. More importantly, our method outperforms these methods on unknown class recognition by a large margin.


翻译:现有的语义分割方法通常受到昂贵的像素级注释和预定义类别的限制。本文提出了 CLIP-S$^4$,它利用自监督像素表示学习和视觉语言模型,实现了各种语义分割任务(例如无监督、迁移学习、基于语言的分割),无需任何人工注释和未知类别信息。我们首先从图像的不同增强视图中进行像素分割对比学习,学习像素嵌入。为了进一步改进像素嵌入并支持基于语言的语义分割,我们设计了两种一致性,这两种一致性都由视觉语言模型指导:1) 嵌入一致性,将我们的像素嵌入与预训练的视觉语言模型CLIP的联合特征空间对齐;2) 语义一致性,强制模型在一组精心设计的目标类别上与CLIP进行相同的预测,这些目标类别既包括已知原型也包括未知原型。因此,CLIP-S$^4$ 实现了一项无类别分割的新任务,在训练期间不需要任何未知类别信息。结果,与最先进的无监督和基于语言的语义分割方法相比,我们的方法在四个广泛应用的基准测试中表现出了一致且显著的性能提升。更重要的是,我们的方法在未知类别识别方面显著优于这些方法。

0
下载
关闭预览

相关内容

视频自监督学习综述
专知会员服务
51+阅读 · 2022年7月5日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
国家自然科学基金
8+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
13+阅读 · 2022年10月20日
VIP会员
相关VIP内容
视频自监督学习综述
专知会员服务
51+阅读 · 2022年7月5日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
相关基金
国家自然科学基金
8+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员