In recent years, BERT has made significant breakthroughs on many natural language processing tasks and attracted great attentions. Despite its accuracy gains, the BERT model generally involves a huge number of parameters and needs to be trained on massive datasets, so training such a model is computationally very challenging and time-consuming. Hence, training efficiency should be a critical issue. In this paper, we propose a novel coarse-refined training framework named CoRe to speed up the training of BERT. Specifically, we decompose the training process of BERT into two phases. In the first phase, by introducing fast attention mechanism and decomposing the large parameters in the feed-forward network sub-layer, we construct a relaxed BERT model which has much less parameters and much lower model complexity than the original BERT, so the relaxed model can be quickly trained. In the second phase, we transform the trained relaxed BERT model into the original BERT and further retrain the model. Thanks to the desired initialization provided by the relaxed model, the retraining phase requires much less training steps, compared with training an original BERT model from scratch with a random initialization. Experimental results show that the proposed CoRe framework can greatly reduce the training time without reducing the performance.


翻译:近年来,BERT在许多自然语言处理任务上取得了重大突破,吸引了极大关注。尽管取得了准确性,BERT模式通常涉及大量参数,需要接受大规模数据集培训,因此,培训这种模型在计算上非常富有挑战性和耗时。因此,培训效率应是一个关键问题。在本文件中,我们提议了一个名为CORE的新的粗略、经过调整的培训框架,以加快对BERT的培训。具体地说,我们将BERT的培训进程分解为两个阶段。在第一阶段,通过引入快速关注机制和分解饲料前网络子层的大型参数,我们建造了一个宽松的BERT模型,该模型的参数比原BERT少得多,模型的复杂性要低得多,因此,该宽松模型可以很快地得到培训。在第二阶段,我们将经过培训的经过培训的放松的BERT模型转变为原始的BERT模型,并进一步对模型进行再培训。由于宽松模式所提供的理想初始化,再培训阶段需要的培训步骤要少得多,而培训的阶段则比最初的BERT模型从随机初始化而少得多。 实验结果显示拟议的业绩框架可以大大减少。

0
下载
关闭预览

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
小米在预训练模型的探索与优化
专知会员服务
20+阅读 · 2020年12月31日
最新《Transformers模型》教程,64页ppt
专知会员服务
315+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
已删除
将门创投
3+阅读 · 2017年11月3日
Arxiv
8+阅读 · 2020年10月9日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
6+阅读 · 2019年3月19日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
3+阅读 · 2018年8月17日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
已删除
将门创投
3+阅读 · 2017年11月3日
Top
微信扫码咨询专知VIP会员