The highly popular Transformer architecture, based on self-attention, is the foundation of large pretrained models such as BERT, that have become an enduring paradigm in NLP. While powerful, the computational resources and time required to pretrain such models can be prohibitive. In this work, we present an alternative self-attention architecture, Shatter, that more efficiently encodes sequence information by softly partitioning the space of relative positions and applying different value matrices to different parts of the sequence. This mechanism further allows us to simplify the multi-headed attention in Transformer to single-headed. We conduct extensive experiments showing that Shatter achieves better performance than BERT, with pretraining being faster per step (15% on TPU), converging in fewer steps, and offering considerable memory savings (>50%). Put together, Shatter can be pretrained on 8 V100 GPUs in 7 days, and match the performance of BERT_Base -- making the cost of pretraining much more affordable.


翻译:高度流行的基于自我注意的变压器结构是大型预先培训模型的基础,如BERT,这些模型已经成为NLP的持久范例。 虽然其实力强大,但预演这些模型所需的计算资源和时间可能令人望而却步。在这项工作中,我们提出了一个替代性的自留结构,即Shashet,它通过软分割相对位置的空间和将不同的价值矩阵应用到序列的不同部分来更有效地编码序列信息。这个机制进一步使我们能够简化变压器中多头的注意力到单头的。我们进行了广泛的实验,表明散压器比BERT取得较好的性能,每步(在TPU上,15 % ) 的预培训速度要快, 以更少的步骤聚合, 并提供大量记忆节省( > 50% ) 。加在一起, 碎片可以在7天内对8 V100 GPPS进行预先训练, 并匹配BERT_Base的性能 -- 使得预培训成本更低得多。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
316+阅读 · 2020年11月26日
专知会员服务
45+阅读 · 2020年10月31日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
106+阅读 · 2020年8月30日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
注意力机制介绍,Attention Mechanism
专知会员服务
170+阅读 · 2019年10月13日
【Reformer】图解Reformer:一种高效的Transformer
深度学习自然语言处理
6+阅读 · 2020年3月9日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Arxiv
0+阅读 · 2021年10月16日
Arxiv
3+阅读 · 2021年2月16日
Arxiv
23+阅读 · 2020年9月16日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
316+阅读 · 2020年11月26日
专知会员服务
45+阅读 · 2020年10月31日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
106+阅读 · 2020年8月30日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
注意力机制介绍,Attention Mechanism
专知会员服务
170+阅读 · 2019年10月13日
相关资讯
【Reformer】图解Reformer:一种高效的Transformer
深度学习自然语言处理
6+阅读 · 2020年3月9日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
相关论文
Top
微信扫码咨询专知VIP会员