Transformer recently has shown encouraging progresses in computer vision. In this work, we present new baselines by improving the original Pyramid Vision Transformer (abbreviated as PVTv1) by adding three designs, including (1) overlapping patch embedding, (2) convolutional feed-forward networks, and (3) linear complexity attention layers. With these modifications, our PVTv2 significantly improves PVTv1 on three tasks e.g., classification, detection, and segmentation. Moreover, PVTv2 achieves comparable or better performances than recent works such as Swin Transformer. We hope this work will facilitate state-of-the-art Transformer researches in computer vision. Code is available at https://github.com/whai362/PVT .


翻译:最近,变异器在计算机愿景方面取得了令人鼓舞的进展。 在这项工作中,我们通过改进原始的金字塔愿景变异器(以PVTv1为缩放)来展示新的基线,方法是增加三种设计,包括:(1) 重叠的补丁嵌入,(2) 进料向前网络,(3) 线性复杂关注层。有了这些修改,我们的PVTv2在分类、检测和分割等三项任务上大大改进了PVTv1。此外,PVTv2取得了比Swin变异器等近期工程的类似或更好的性能。我们希望这项工作将促进计算机愿景中最先进的变异器研究。代码可在https://github.com/whai362/PVT上查阅。

0
下载
关闭预览

相关内容

Pyramid is a small, fast, down-to-earth Python web application development framework.
专知会员服务
29+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
专知会员服务
82+阅读 · 2020年9月27日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
102+阅读 · 2020年8月30日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
17+阅读 · 2021年1月21日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
6+阅读 · 2018年2月6日
VIP会员
相关VIP内容
专知会员服务
29+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
专知会员服务
82+阅读 · 2020年9月27日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
102+阅读 · 2020年8月30日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
相关论文
Top
微信扫码咨询专知VIP会员