PVT v2：金字塔视觉变换器的改进基线 (PVT v2: Improved Baselines with Pyramid Vision Transformer) - 专知论文

会员服务 ·

0

PVT · 变换 · 基线 · 前馈网络 · 前馈 ·

2023 年 4 月 17 日

PVT v2: Improved Baselines with Pyramid Vision Transformer

翻译：PVT v2：金字塔视觉变换器的改进基线

Wenhai Wang,Enze Xie,Xiang Li,Deng-Ping Fan,Kaitao Song,Ding Liang,Tong Lu,Ping Luo,Ling Shao

from arxiv, Accepted to CVMJ 2022

Transformer recently has presented encouraging progress in computer vision. In this work, we present new baselines by improving the original Pyramid Vision Transformer (PVT v1) by adding three designs, including (1) linear complexity attention layer, (2) overlapping patch embedding, and (3) convolutional feed-forward network. With these modifications, PVT v2 reduces the computational complexity of PVT v1 to linear and achieves significant improvements on fundamental vision tasks such as classification, detection, and segmentation. Notably, the proposed PVT v2 achieves comparable or better performances than recent works such as Swin Transformer. We hope this work will facilitate state-of-the-art Transformer researches in computer vision. Code is available at https://github.com/whai362/PVT.

翻译：近期变换器在计算机视觉中取得了令人鼓舞的进展。在这项工作中，我们通过添加三种设计（包括（1）线性复杂度的注意力层，（2）重叠的补丁嵌入和（3）卷积前馈网络）来改进原始的金字塔视觉变换器（PVTv1），从而提出了新的基线。通过这些修改，PVTv2将PVTv1的计算复杂度降低到线性，并在基本的视觉任务（如分类、检测和分割）方面取得了显著的改进。值得注意的是，所提出的PVTv2在与最近的作品（如Swin Transformer）相比方面实现了可比或更好的性能。我们希望这项工作能够促进计算机视觉中的最先进Transformer研究。代码可在 https://github.com/whai362/PVT 找到。

0

相关内容

PVT

【CVPR2023】DynamicDet:目标检测的统一动态架构

【CVPR2023】DynamicDet:目标检测的统一动态架构

专知会员服务

26+阅读 · 2023年4月15日

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

专知会员服务

34+阅读 · 2023年3月8日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

专知会员服务

25+阅读 · 2022年3月9日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【CVPR2021】通道注意力的高效移动网络设计

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

16+阅读 · 2020年7月27日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

全新混合架构iFormer！将卷积和最大池化灵活移植到Transformer

全新混合架构iFormer！将卷积和最大池化灵活移植到Transformer

PaperWeekly

0+阅读 · 2022年6月21日

又快又强的轻量化主干来了！EfficientFormer：在iPhone上能实时推理的ViT模型

又快又强的轻量化主干来了！EfficientFormer：在iPhone上能实时推理的ViT模型

CVer

1+阅读 · 2022年6月5日

做目标检测，这6篇就够了：CVPR 2020目标检测论文盘点

做目标检测，这6篇就够了：CVPR 2020目标检测论文盘点

机器之心

23+阅读 · 2020年7月27日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】YOLO实时目标检测(6fps)

【推荐】YOLO实时目标检测(6fps)

机器学习研究会

20+阅读 · 2017年11月5日

有氧运动通过LncRNAs调控miR-492/resistin表达改善主动脉内皮胰岛素抵抗的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

遥感图像融合方法的几何性能研究

国家自然科学基金

1+阅读 · 2013年12月31日

视觉原理指导下的动目标检测与跟踪新方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于PCA与二代Curvelet变换的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

小鼠视知觉训练提高视功能的神经基础和分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

多带哈伯德模型中磁性与超导特性的理论研究

国家自然科学基金

0+阅读 · 2011年12月31日

有切变夹卷过程及其参数化研究

国家自然科学基金

0+阅读 · 2009年12月31日

增强现实中多目标3D跟踪定位和WH-SIFT特征识别方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

听觉中枢神经元以时间编码声音频率特性的原理

国家自然科学基金

0+阅读 · 2009年12月31日

A Multi-Modal Transformer Network for Action Detection

Arxiv

0+阅读 · 2023年5月31日

Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block

Arxiv

0+阅读 · 2023年5月31日

Saliency Map Verbalization: Comparing Feature Importance Representations from Model-free and Instruction-based Methods

Arxiv

0+阅读 · 2023年5月30日

Full Stack Optimization of Transformer Inference: a Survey

Arxiv

19+阅读 · 2023年2月27日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

VIP会员

文章信息

相关主题

相关VIP内容

【CVPR2023】DynamicDet:目标检测的统一动态架构

【CVPR2023】DynamicDet:目标检测的统一动态架构

专知会员服务

26+阅读 · 2023年4月15日

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

专知会员服务

34+阅读 · 2023年3月8日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA

专知会员服务

25+阅读 · 2022年3月9日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【CVPR2021】通道注意力的高效移动网络设计

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

16+阅读 · 2020年7月27日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

全新混合架构iFormer！将卷积和最大池化灵活移植到Transformer

全新混合架构iFormer！将卷积和最大池化灵活移植到Transformer

PaperWeekly

0+阅读 · 2022年6月21日

又快又强的轻量化主干来了！EfficientFormer：在iPhone上能实时推理的ViT模型

又快又强的轻量化主干来了！EfficientFormer：在iPhone上能实时推理的ViT模型

CVer

1+阅读 · 2022年6月5日

做目标检测，这6篇就够了：CVPR 2020目标检测论文盘点

做目标检测，这6篇就够了：CVPR 2020目标检测论文盘点

机器之心

23+阅读 · 2020年7月27日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

【论文推荐】最新6篇目标检测相关论文—场景文本检测、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

专知

19+阅读 · 2018年3月16日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】YOLO实时目标检测(6fps)

【推荐】YOLO实时目标检测(6fps)

机器学习研究会

20+阅读 · 2017年11月5日

相关论文

A Multi-Modal Transformer Network for Action Detection

Arxiv

0+阅读 · 2023年5月31日

Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block

Arxiv

0+阅读 · 2023年5月31日

Saliency Map Verbalization: Comparing Feature Importance Representations from Model-free and Instruction-based Methods

Arxiv

0+阅读 · 2023年5月30日

Full Stack Optimization of Transformer Inference: a Survey

Arxiv

19+阅读 · 2023年2月27日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

相关基金

有氧运动通过LncRNAs调控miR-492/resistin表达改善主动脉内皮胰岛素抵抗的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

遥感图像融合方法的几何性能研究

国家自然科学基金

1+阅读 · 2013年12月31日

视觉原理指导下的动目标检测与跟踪新方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于PCA与二代Curvelet变换的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

小鼠视知觉训练提高视功能的神经基础和分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

多带哈伯德模型中磁性与超导特性的理论研究

国家自然科学基金

0+阅读 · 2011年12月31日

有切变夹卷过程及其参数化研究

国家自然科学基金

0+阅读 · 2009年12月31日

增强现实中多目标3D跟踪定位和WH-SIFT特征识别方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

听觉中枢神经元以时间编码声音频率特性的原理

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员