BERT has achieved superior performances on Natural Language Understanding (NLU) tasks. However, BERT possesses a large number of parameters and demands certain resources to deploy. For acceleration, Dynamic Early Exiting for BERT (DeeBERT) has been proposed recently, which incorporates multiple exits and adopts a dynamic early-exit mechanism to ensure efficient inference. While obtaining an efficiency-performance tradeoff, the performances of early exits in multi-exit BERT are significantly worse than late exits. In this paper, we leverage gradient regularized self-distillation for RObust training of Multi-Exit BERT (RomeBERT), which can effectively solve the performance imbalance problem between early and late exits. Moreover, the proposed RomeBERT adopts a one-stage joint training strategy for multi-exits and the BERT backbone while DeeBERT needs two stages that require more training time. Extensive experiments on GLUE datasets are performed to demonstrate the superiority of our approach. Our code is available at https://github.com/romebert/RomeBERT.


翻译:在自然语言理解(NLU)任务方面,BERT取得了优异的成绩。然而,BERT拥有大量参数,要求部署某些资源。关于加速,最近提出了BERT(DeeBERT)动态早期退出(DeeBERT)的建议,其中包括多重退出和采用动态提前退出机制,以确保有效的推论。在获得效率-绩效权衡时,多出口BERT早期退出的绩效比晚期退出要差得多。在本文件中,我们利用梯度固定化的自我提炼来进行多出口BERT(RomeBERT)的ROBust培训,这可以有效解决早期和晚退出之间的业绩不平衡问题。此外,拟议的RomeBERT为多出口者和BERT的骨干采取了一个阶段的联合培训战略,而DeeBERT需要两个阶段的训练时间,对GLUE数据集进行了广泛的试验,以证明我们的方法的优越性。我们的代码可在https://github.com/romebert/RomeBERT。

0
下载
关闭预览

相关内容

【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT
专知会员服务
15+阅读 · 2020年7月27日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
BERT源码分析PART I
AINLP
38+阅读 · 2019年7月12日
站在BERT肩膀上的NLP新秀们(PART III)
AINLP
11+阅读 · 2019年6月18日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
已删除
将门创投
7+阅读 · 2018年4月18日
Arxiv
8+阅读 · 2020年10月9日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
6+阅读 · 2019年3月19日
VIP会员
相关VIP内容
相关资讯
BERT源码分析PART I
AINLP
38+阅读 · 2019年7月12日
站在BERT肩膀上的NLP新秀们(PART III)
AINLP
11+阅读 · 2019年6月18日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
已删除
将门创投
7+阅读 · 2018年4月18日
Top
微信扫码咨询专知VIP会员