Vision Transformer (ViT) extends the application range of transformers from language processing to computer vision tasks as being an alternative architecture against the existing convolutional neural networks (CNN). Since the transformer-based architecture has been innovative for computer vision modeling, the design convention towards an effective architecture has been less studied yet. From the successful design principles of CNN, we investigate the role of the spatial dimension conversion and its effectiveness on the transformer-based architecture. We particularly attend the dimension reduction principle of CNNs; as the depth increases, a conventional CNN increases channel dimension and decreases spatial dimensions. We empirically show that such a spatial dimension reduction is beneficial to a transformer architecture as well, and propose a novel Pooling-based Vision Transformer (PiT) upon the original ViT model. We show that PiT achieves the improved model capability and generalization performance against ViT. Throughout the extensive experiments, we further show PiT outperforms the baseline on several tasks such as image classification, object detection and robustness evaluation. Source codes and ImageNet models are available at https://github.com/naver-ai/pit


翻译:视觉变异器(VIT)将变压器的应用范围从语言处理扩大到计算机的变压器应用范围,将变压器的应用范围从语言处理扩大到计算机的视觉任务,作为针对现有变动神经网络(CNN)的替代结构。由于以变压器为基础的结构对于计算机的视觉建模来说是创新的,因此对有效结构的设计公约的研究较少。从CNN的成功设计原则来看,我们调查空间维度转换的作用及其对变压器结构在变压器结构中的有效性。我们特别参与了CNN的降低维度原则;随着深度的提高,常规CNN的CNN频道增加了频道的维度,降低了空间维度。我们从经验上表明,这种空间尺寸的减压也有益于变压器结构,并在原VT模型上提出了一个新的基于集合的视觉变压器(PiT)。我们显示,PiT在广泛的实验中,在图像分类、物体探测和坚固度评估等几项任务上,比基准的基线还要高。源码和图像网络模型见https://github.com-naver-ai/pit/pit/pit/pital/pit

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
308+阅读 · 2020年11月26日
【ST2020硬核课】深度神经网络,57页ppt
专知会员服务
45+阅读 · 2020年8月19日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
一文纵览 Vision-and-Language 领域最新研究与进展
AI科技评论
7+阅读 · 2019年5月14日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
注意力机制(Attention)最新综述论文及相关源码
人工智能学家
30+阅读 · 2018年11月17日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
0+阅读 · 2021年5月21日
Arxiv
3+阅读 · 2020年9月30日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
3+阅读 · 2018年6月1日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
308+阅读 · 2020年11月26日
【ST2020硬核课】深度神经网络,57页ppt
专知会员服务
45+阅读 · 2020年8月19日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
相关资讯
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
一文纵览 Vision-and-Language 领域最新研究与进展
AI科技评论
7+阅读 · 2019年5月14日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
注意力机制(Attention)最新综述论文及相关源码
人工智能学家
30+阅读 · 2018年11月17日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员