Transformer recently has shown encouraging progresses in computer vision. In this work, we present new baselines by improving the original Pyramid Vision Transformer (abbreviated as PVTv1) by adding three designs, including (1) overlapping patch embedding, (2) convolutional feed-forward networks, and (3) linear complexity attention layers. With these modifications, our PVTv2 significantly improves PVTv1 on three tasks e.g., classification, detection, and segmentation. Moreover, PVTv2 achieves comparable or better performances than recent works such as Swin Transformer. We hope this work will facilitate state-of-the-art Transformer researches in computer vision. Code is available at https://github.com/whai362/PVT .


翻译:最近,变异器在计算机愿景方面取得了令人鼓舞的进展。 在这项工作中,我们通过改进原始的金字塔愿景变异器(以PVTv1为缩放)来展示新的基线,方法是增加三种设计,包括:(1) 重叠的补丁嵌入,(2) 进料向前网络,(3) 线性复杂关注层。有了这些修改,我们的PVTv2在分类、检测和分割等三项任务上大大改进了PVTv1。此外,PVTv2取得了比Swin变异器等近期工程的类似或更好的性能。我们希望这项工作将促进计算机愿景中最先进的变异器研究。代码可在https://github.com/whai362/PVT上查阅。

0
下载
关闭预览

相关内容

Pyramid is a small, fast, down-to-earth Python web application development framework.
专知会员服务
42+阅读 · 2021年8月20日
专知会员服务
29+阅读 · 2021年7月30日
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
专知会员服务
82+阅读 · 2020年9月27日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
LibRec 精选:EfficientNet、XLNet 论文及代码实现
LibRec智能推荐
5+阅读 · 2019年7月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年6月7日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2021年4月8日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
Arxiv
8+阅读 · 2018年5月1日
VIP会员
相关VIP内容
专知会员服务
42+阅读 · 2021年8月20日
专知会员服务
29+阅读 · 2021年7月30日
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
专知会员服务
82+阅读 · 2020年9月27日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
LibRec 精选:EfficientNet、XLNet 论文及代码实现
LibRec智能推荐
5+阅读 · 2019年7月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年6月7日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员