Transformer in computer vision has recently shown encouraging progress. In this work, we improve the original Pyramid Vision Transformer (PVTv1) by adding three improvement designs, which include (1) locally continuous features with convolutions, (2) position encodings with zero paddings, and (3) linear complexity attention layers with average pooling. With these simple modifications, our PVTv2 significantly improves PVTv1 on classification, detection, and segmentation. Moreover, PVTv2 achieves much better performance than recent works, including Swin Transformer, under ImageNet-1K pre-training. We hope this work will make state-of-the-art vision Transformer research more accessible. Code is available at https://github.com/whai362/PVT .


翻译:在这项工作中,我们改进了最初的金字塔愿景变异器(PVTv1),增加了三项改进设计,其中包括:(1) 本地连续功能与变异,(2) 位置编码与零垫接轨,(3) 线性复杂关注层与平均集合。有了这些简单的修改,我们的PVTv2大大改进了PVTv1在分类、检测和分割方面的功能。此外,PVTv2的绩效比最近的工程要好得多,包括在图像Net-1K培训前的Swin变异器。我们希望这项工作将使最先进的视觉变异器研究更容易被利用。代码可在https://github.com/whai362/PVT上查阅。

0
下载
关闭预览

相关内容

Pyramid is a small, fast, down-to-earth Python web application development framework.
专知会员服务
30+阅读 · 2021年7月30日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
专知会员服务
57+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
CVPR2019 | Decoders 对于语义分割的重要性
极市平台
6+阅读 · 2019年3月19日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
0+阅读 · 2021年8月25日
Arxiv
17+阅读 · 2021年3月29日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
VIP会员
相关VIP内容
专知会员服务
30+阅读 · 2021年7月30日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
专知会员服务
57+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关论文
Arxiv
0+阅读 · 2021年8月25日
Arxiv
17+阅读 · 2021年3月29日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Top
微信扫码咨询专知VIP会员