Zero-shot semantic segmentation (ZS3) aims to segment the novel categories that have not been seen in the training. Existing works formulate ZS3 as a pixel-level zero-shot classification problem, and transfer semantic knowledge from seen classes to unseen ones with the help of language models pre-trained only with texts. While simple, the pixel-level ZS3 formulation shows the limited capability to integrate vision-language models that are often pre-trained with image-text pairs and currently demonstrate great potential for vision tasks. Inspired by the observation that humans often perform segment-level semantic labeling, we propose to decouple the ZS3 into two sub-tasks: 1) a class-agnostic grouping task to group the pixels into segments. 2) a zero-shot classification task on segments. The former sub-task does not involve category information and can be directly transferred to group pixels for unseen classes. The latter subtask performs at segment-level and provides a natural way to leverage large-scale vision-language models pre-trained with image-text pairs (e.g. CLIP) for ZS3. Based on the decoupling formulation, we propose a simple and effective zero-shot semantic segmentation model, called ZegFormer, which outperforms the previous methods on ZS3 standard benchmarks by large margins, e.g., 35 points on the PASCAL VOC and 3 points on the COCO-Stuff in terms of mIoU for unseen classes. Code will be released at https://github.com/dingjiansw101/ZegFormer.


翻译:零点语义分解( ZS3 ) 旨在分割在培训中未看到的新分类 。 现有的工程将 ZS3 编成像素级零点分类问题, 并在语言模型的帮助下将语义学知识从可见类转换到看不见类, 只对文本进行预培训。 简单的是, 像素级 ZS3 的配方表明, 整合愿景语言模型的能力有限, 这些模型通常经过图像文本配对的预先培训, 目前展示了巨大的视觉任务潜力 。 受 人类经常执行部分级语义标签的观察的启发, 我们建议将 ZS3 调成两个子任务 :1) 类语义组, 将像素组分组, 仅对文本进行预培训。 2 片段的零点分类任务。 以前的像类信息不包含类信息, 并且可以直接传输到不可见类类的类类像素。 后一个子级塔克在分级上进行演练, 并且提供了一种自然的方式, 利用大型视觉模型模型进行分级的分级 。 SS3 级 Sag- fre- frecial- sucial suder- seal sailding the degradustration, 在Silding the supdustrual- suplate- suplations

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
162+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
101+阅读 · 2019年10月9日
已删除
无人机
3+阅读 · 2019年3月4日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Arxiv
8+阅读 · 2021年6月1日
Learning Dynamic Routing for Semantic Segmentation
Arxiv
8+阅读 · 2020年3月23日
Arxiv
6+阅读 · 2018年6月21日
VIP会员
相关资讯
已删除
无人机
3+阅读 · 2019年3月4日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Top
微信扫码咨询专知VIP会员