Transformer models are not only successful in natural language processing (NLP) but also demonstrate high potential in computer vision (CV). Despite great advance, most of works only focus on improvement of architectures but pay little attention to the classification head. For years transformer models base exclusively on classification token to construct the final classifier, without explicitly harnessing high-level word tokens. In this paper, we propose a novel transformer model called second-order transformer (SoT), exploiting simultaneously the classification token and word tokens for the classifier. Specifically, we empirically disclose that high-level word tokens contain rich information, which per se are very competent with the classifier and moreover, are complementary to the classification token. To effectively harness such rich information, we propose multi-headed global cross-covariance pooling with singular value power normalization, which shares similar philosophy and thus is compatible with the transformer block, better than commonly used pooling methods. Then, we study comprehensively how to explicitly combine word tokens with classification token for building the final classification head. For CV tasks, our SoT significantly improves state-of-the-art vision transformers on challenging benchmarks including ImageNet and ImageNet-A. For NLP tasks, through fine-tuning based on pretrained language transformers including GPT and BERT, our SoT greatly boosts the performance on widely used tasks such as CoLA and RTE. Code will be available at https://peihuali.org/SoT


翻译:变异器模型不仅在自然语言处理(NLP)中取得成功,而且在计算机视觉(CV)中也显示出巨大的潜力。 尽管取得了巨大的进步,但大多数作品都只关注建筑结构的改进,而很少注意分类头。 年年变异器模型的基础完全以分类符号为基础,用于构建最后分类器,而没有明确使用高层次的单词符号。 在本文中,我们提出了一个叫作二阶变异器(SoT)的新型变异器模型,同时利用分类器的分类符号和字号。 具体地说,我们从经验上广泛披露,高层次的名牌含有丰富的信息,这些信息本身非常适合分类器,而且很少注意分类标码。 为了有效地利用这种丰富的信息,我们建议多头全球交叉变异器模型集成单一的分类器符号来构建最后分类器,而没有明确地使用二阶变变变变器(SoT) 和升级的变压器 。 对于CVIL 任务, 包括具有挑战性能的GPT 网络 和GPT 变压器, 和GPL 图像网络。

1
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
专知会员服务
15+阅读 · 2020年7月27日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
1+阅读 · 2022年2月21日
Arxiv
3+阅读 · 2021年7月5日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员