Transformers have shown impressive performance in various natural language processing and computer vision tasks, due to the capability of modeling long-range dependencies. Recent progress has demonstrated to combine such transformers with CNN-based semantic image segmentation models is very promising. However, it is not well studied yet on how well a pure transformer based approach can achieve for image segmentation. In this work, we explore a novel framework for semantic image segmentation, which is encoder-decoder based Fully Transformer Networks (FTN). Specifically, we first propose a Pyramid Group Transformer (PGT) as the encoder for progressively learning hierarchical features, while reducing the computation complexity of the standard visual transformer(ViT). Then, we propose a Feature Pyramid Transformer (FPT) to fuse semantic-level and spatial-level information from multiple levels of the PGT encoder for semantic image segmentation. Surprisingly, this simple baseline can achieve new state-of-the-art results on multiple challenging semantic segmentation benchmarks, including PASCAL Context, ADE20K and COCO-Stuff. The source code will be released upon the publication of this work.


翻译:在各种自然语言处理和计算机视觉任务中,由于模拟长距离依赖性的能力,变异器在各种自然语言处理和计算机视觉任务中表现出了令人印象深刻的性能。最近的进展表明,将这类变异器与CNN的语义图像分解模型相结合是非常有希望的。然而,对纯变异器在图像分化方面能取得多大的效益,还没有进行充分的研究。在这项工作中,我们探索了一种基于全变异器网络(FTN)的语义图像分解新框架。具体地说,我们首先建议用一个金字形集团变异器作为逐渐学习等级特征的编码器,同时降低标准视觉变异器(VIT)的计算复杂性。然后,我们建议用一个Fetatic Pyramid变异器(FPTT) 来将语义级和空间级信息从PGT T 图像分解的多层融合起来。令人惊讶的是,这一简单基线可以取得关于多重具有挑战性的语义分解基准的新的状态结果,包括PASAL背景、ADE20K和CO的源码。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
278+阅读 · 2020年11月26日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
98+阅读 · 2020年8月30日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
一文带你读懂 SegNet(语义分割)
AI研习社
19+阅读 · 2019年3月9日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
7+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关资讯
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
一文带你读懂 SegNet(语义分割)
AI研习社
19+阅读 · 2019年3月9日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员