Transformers have become one of the most important architectural innovations in deep learning and have enabled many breakthroughs over the past few years. Here we propose a simple attention-free network architecture, gMLP, based solely on MLPs with gating, and show that it can perform as well as Transformers in key language and vision applications. Our comparisons show that self-attention is not critical for Vision Transformers, as gMLP can achieve the same accuracy. For BERT, our model achieves parity with Transformers on pretraining perplexity and is better on some downstream tasks. On finetuning tasks where gMLP performs worse, making the gMLP model substantially larger can close the gap with Transformers. In general, our experiments show that gMLP can scale as well as Transformers over increased data and compute.


翻译:在深层学习中,变异器已成为最重要的建筑创新之一,并在过去几年中实现了许多突破。 我们在这里建议了一个简单的无关注网络架构,即GMLP(GMLP),它完全以带刺的 MLP 为基础,并显示它既能在关键语言和视觉应用中发挥作用,也能在变异器上发挥作用。我们的比较表明,自我关注对于愿景变异器来说并不关键,因为GMLP可以达到同样的准确度。对于BERT来说,我们的模型在培训前的复杂度上与变异器实现了对等,并且在某些下游任务上也比较好。在微调任务上,GMLP表现得更差,使GMLP模型大得多可以缩小与变异器的距离。 总的来说,我们的实验表明,GMLP可以以及变异器在增加的数据和计算上进行比例。

27
下载
关闭预览

相关内容

2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
65+阅读 · 2021年5月23日
【干货书】Python机器学习,361页pdf
专知会员服务
264+阅读 · 2021年2月25日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
注意力图神经网络的小样本学习
专知会员服务
191+阅读 · 2020年7月16日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
3+阅读 · 2021年7月5日
Arxiv
9+阅读 · 2021年5月17日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
3+阅读 · 2020年9月30日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
65+阅读 · 2021年5月23日
【干货书】Python机器学习,361页pdf
专知会员服务
264+阅读 · 2021年2月25日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
注意力图神经网络的小样本学习
专知会员服务
191+阅读 · 2020年7月16日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
相关资讯
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
3+阅读 · 2021年7月5日
Arxiv
9+阅读 · 2021年5月17日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
3+阅读 · 2020年9月30日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
27+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员