近来,基于Transformer结构的预训练语言模型(如BERT和RoBERTa)在自然语言处理任务上取得了显著成果。但是,这些模型参数量巨大,限制了其在存储、计算、功耗等性能有限的边缘设备上的部署。将BERT部署到这些设备的困难体现在两个方面:(1)各种终端设备性能各不一样,怎么给不同性能的设备部署适合自身性能的模型;(2)同一个终端设备在不同的情况下可接受的运行BERT模型的存储、计算和功耗也不一样。为了解决这个问题,我们提出了一种宽度和深度可伸缩的动态预训练模型DynaBERT。与以往将BERT网络压缩到固定大小或者只在深度方向做可伸缩的方法相比,本文第一次提出来在BERT宽度方向进行可伸缩训练。宽度可伸缩通过调整Transformer层可以并行计算的注意力头和全连接层中间层神经元数目达到。本文还针对宽度方向提出了新颖的网络重连方式使得重要的注意力头和神经元被更多的子网络共享。在基准数据集上的实验结果表明,该模型通过新颖的知识蒸馏策略显著提升了子网络在NLU任务上的准确率。该模型可以根据不同设备的硬件性能部署不同宽度和深度的子网络。并且一旦某个设备部署了BERT模型,该设备也可以根据自身资源条件动态加载已部署模型的一部分进行推理。代码已经开源在https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT。

成为VIP会员查看完整内容
19

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
专知会员服务
115+阅读 · 2020年8月22日
专知会员服务
45+阅读 · 2020年3月6日
BERT进展2019四篇必读论文
专知会员服务
68+阅读 · 2020年1月2日
深度神经网络模型压缩与加速综述
专知会员服务
129+阅读 · 2019年10月12日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
20项任务全面碾压BERT,全新XLNet预训练模型
机器学习算法与Python学习
15+阅读 · 2019年6月20日
动态记忆网络:向通用NLP更近一步
AI前线
4+阅读 · 2019年5月16日
Perseus-BERT——业内性能极致优化的BERT训练方案
云栖社区
15+阅读 · 2019年2月20日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
谷歌BERT模型深度解析
AINLP
42+阅读 · 2018年11月15日
资源 | 最强预训练模型BERT的Pytorch实现(非官方)
全球人工智能
7+阅读 · 2018年10月18日
Arxiv
2+阅读 · 2020年12月2日
Arxiv
8+阅读 · 2020年10月9日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
4+阅读 · 2019年2月18日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关VIP内容
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
专知会员服务
115+阅读 · 2020年8月22日
专知会员服务
45+阅读 · 2020年3月6日
BERT进展2019四篇必读论文
专知会员服务
68+阅读 · 2020年1月2日
深度神经网络模型压缩与加速综述
专知会员服务
129+阅读 · 2019年10月12日
相关资讯
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
20项任务全面碾压BERT,全新XLNet预训练模型
机器学习算法与Python学习
15+阅读 · 2019年6月20日
动态记忆网络:向通用NLP更近一步
AI前线
4+阅读 · 2019年5月16日
Perseus-BERT——业内性能极致优化的BERT训练方案
云栖社区
15+阅读 · 2019年2月20日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
谷歌BERT模型深度解析
AINLP
42+阅读 · 2018年11月15日
资源 | 最强预训练模型BERT的Pytorch实现(非官方)
全球人工智能
7+阅读 · 2018年10月18日
相关论文
Arxiv
2+阅读 · 2020年12月2日
Arxiv
8+阅读 · 2020年10月9日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
4+阅读 · 2019年2月18日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
微信扫码咨询专知VIP会员