Image segmentation is often ambiguous at the level of individual image patches and requires contextual information to reach label consensus. In this paper we introduce Segmenter, a transformer model for semantic segmentation. In contrast to convolution-based methods, our approach allows to model global context already at the first layer and throughout the network. We build on the recent Vision Transformer (ViT) and extend it to semantic segmentation. To do so, we rely on the output embeddings corresponding to image patches and obtain class labels from these embeddings with a point-wise linear decoder or a mask transformer decoder. We leverage models pre-trained for image classification and show that we can fine-tune them on moderate sized datasets available for semantic segmentation. The linear decoder allows to obtain excellent results already, but the performance can be further improved by a mask transformer generating class masks. We conduct an extensive ablation study to show the impact of the different parameters, in particular the performance is better for large models and small patch sizes. Segmenter attains excellent results for semantic segmentation. It outperforms the state of the art on both ADE20K and Pascal Context datasets and is competitive on Cityscapes.


翻译:在单个图像补丁层面, 图像的分解往往模糊不清, 并且需要背景信息才能达到标签共识 。 在本文中, 我们引入了片段, 一个变压器模型, 用于语义分解 。 与基于变动的方法相反, 我们的方法允许在第一个层和整个网络上建模全球背景。 我们建建于最新的视野变异器( Vit), 并将其扩展至语义分解。 要做到这一点, 我们依靠与图像补丁相对应的输出嵌入, 并从这些嵌入中获取类标签。 我们从这些嵌入中引入了点向线解密器或遮罩变异器解调器。 我们利用了为图像分类而预先训练的变压器模型, 并显示我们可以将其微调用于中度的语义分割数据集。 线形解码解析器已经能够取得优异的结果, 但是通过生成类代口罩来进一步提高性分隔器的性能。 我们进行广泛的对比研究, 以显示不同参数的影响, 特别是性能对大模型和小拼凑变形变形变形器的尺寸更好。 分解器在城市的艺术和背景上, 它将超越了城市变形图的状态。 。

0
下载
关闭预览

相关内容

专知会员服务
83+阅读 · 2020年9月27日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
35+阅读 · 2020年8月23日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
DeepLab V3
计算机视觉战队
9+阅读 · 2018年4月2日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
0+阅读 · 2021年10月21日
Learning Dynamic Routing for Semantic Segmentation
Arxiv
8+阅读 · 2020年3月23日
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
UPSNet: A Unified Panoptic Segmentation Network
Arxiv
4+阅读 · 2019年1月12日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关VIP内容
专知会员服务
83+阅读 · 2020年9月27日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
35+阅读 · 2020年8月23日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关论文
Top
微信扫码咨询专知VIP会员