Although transformers have become the neural architectures of choice for natural language processing, they require orders of magnitude more training data, GPU memory, and computations in order to compete with convolutional neural networks for computer vision. The attention mechanism of transformers scales quadratically with the length of the input sequence, and unrolled images have long sequence lengths. Plus, transformers lack an inductive bias that is appropriate for images. We tested three modifications to vision transformer (ViT) architectures that address these shortcomings. Firstly, we alleviate the quadratic bottleneck by using linear attention mechanisms, called X-formers (such that, X in {Performer, Linformer, Nystr\"omformer}), thereby creating Vision X-formers (ViXs). This resulted in up to a seven times reduction in the GPU memory requirement. We also compared their performance with FNet and multi-layer perceptron mixers, which further reduced the GPU memory requirement. Secondly, we introduced an inductive bias for images by replacing the initial linear embedding layer by convolutional layers in ViX, which significantly increased classification accuracy without increasing the model size. Thirdly, we replaced the learnable 1D position embeddings in ViT with Rotary Position Embedding (RoPE), which increases the classification accuracy for the same model size. We believe that incorporating such changes can democratize transformers by making them accessible to those with limited data and computing resources.


翻译:虽然变压器已成为自然语言处理所选择的神经结构,但变压器已成为自然语言处理所选择的神经结构,它们需要数量级的更多培训数据、GPU内存和计算,以便与计算机视觉的进化神经网络竞争。变压器的注意机制随着输入序列长度的长度而以二次尺度衡量,而无滚动图像则有很长的序列长度。此外,变压器的性能缺乏适合图像的感应偏差。我们测试了用于解决这些缺陷的视觉变压器(ViT)结构的三项修改。首先,我们通过使用所谓的X-Ex(例如 {Perfrench, Linfer, Nystr\'omforth ) 的线性关注机制来减轻四进化瓶颈的瓶颈,从而与进动神经神经网络神经网络的X进行竞争。这导致对GPU的内存留要求减少七倍。我们还将其性与FNet和多层感应感应器混合器的性比较,从而进一步降低了GPU记忆要求。第二,我们引入了对图像的演化偏向偏向偏向性偏向性偏向,方法是用维X的线性嵌层层结构结构结构结构结构取代初始嵌入层,从而将ViX中的前层层层层结构层层层层层层结构,从而大大提升了这种变压变压式的变压式的变换取,这种变压式的定位。

0
下载
关闭预览

相关内容

【NUS-Xavier教授】注意力神经网络,79页ppt
专知会员服务
62+阅读 · 2021年11月25日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
88+阅读 · 2021年6月29日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Arxiv
0+阅读 · 2021年11月24日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关VIP内容
【NUS-Xavier教授】注意力神经网络,79页ppt
专知会员服务
62+阅读 · 2021年11月25日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
88+阅读 · 2021年6月29日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Top
微信扫码咨询专知VIP会员