We demonstrate that transformers obtain impressive performance even when some of the layers are randomly initialized and never updated. Inspired by old and well-established ideas in machine learning, we explore a variety of non-linear "reservoir" layers interspersed with regular transformer layers, and show improvements in wall-clock compute time until convergence, as well as overall performance, on various machine translation and (masked) language modelling tasks.


翻译:我们证明变压器的性能令人印象深刻,即使其中一些层是随机初始化的,从未更新过。 在机器学习中古老和既定的理念的启发下,我们探索了各种非线性“存储”层与常规变压器层交接,并展示了在各种机器翻译和(合成的)语言建模任务上,墙上时钟计算时间的改进,直至汇合,以及总体性能的改善。

0
下载
关闭预览

相关内容

专知会员服务
89+阅读 · 2021年6月29日
专知会员服务
45+阅读 · 2021年6月1日
最新《Transformers模型》教程,64页ppt
专知会员服务
310+阅读 · 2020年11月26日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Arxiv
17+阅读 · 2021年3月29日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关VIP内容
专知会员服务
89+阅读 · 2021年6月29日
专知会员服务
45+阅读 · 2021年6月1日
最新《Transformers模型》教程,64页ppt
专知会员服务
310+阅读 · 2020年11月26日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关论文
Arxiv
17+阅读 · 2021年3月29日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
27+阅读 · 2018年4月12日
Top
微信扫码咨询专知VIP会员