Transformers have become one of the most important architectural innovations in deep learning and have enabled many breakthroughs over the past few years. Here we propose a simple attention-free network architecture, gMLP, based solely on MLPs with gating, and show that it can perform as well as Transformers in key language and vision applications. Our comparisons show that self-attention is not critical for Vision Transformers, as gMLP can achieve the same accuracy. For BERT, our model achieves parity with Transformers on pretraining perplexity and is better on some downstream tasks. On finetuning tasks where gMLP performs worse, making the gMLP model substantially larger can close the gap with Transformers. In general, our experiments show that gMLP can scale as well as Transformers over increased data and compute.


翻译:在深层学习中,变异器已成为最重要的建筑创新之一,并在过去几年中实现了许多突破。 我们在这里建议了一个简单的无关注网络架构,即GMLP(GMLP),它完全以带刺的 MLP 为基础,并显示它既能在关键语言和视觉应用中发挥作用,也能在变异器上发挥作用。我们的比较表明,自我关注对于愿景变异器来说并不关键,因为GMLP可以达到同样的准确度。对于BERT来说,我们的模型在培训前的复杂度上与变异器实现了对等,并且在某些下游任务上也比较好。在微调任务上,GMLP表现得更差,使GMLP模型大得多可以缩小与变异器的距离。 总的来说,我们的实验表明,GMLP可以以及变异器在增加的数据和计算上进行比例。

28
下载
关闭预览

相关内容

2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
67+阅读 · 2021年5月23日
最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Arxiv
9+阅读 · 2021年5月17日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
28+阅读 · 2017年12月6日
VIP会员
相关VIP内容
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
67+阅读 · 2021年5月23日
最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
相关资讯
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
相关论文
Arxiv
9+阅读 · 2021年5月17日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
28+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员