【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT - 专知

会员服务 ·

0

【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT

2020 年 10 月 22 日 专知

近来，基于Transformer结构的预训练语言模型（如BERT和RoBERTa）在自然语言处理任务上取得了显著成果。但是，这些模型参数量巨大，限制了其在存储、计算、功耗等性能有限的边缘设备上的部署。将BERT部署到这些设备的困难体现在两个方面：（1）各种终端设备性能各不一样，怎么给不同性能的设备部署适合自身性能的模型；（2）同一个终端设备在不同的情况下可接受的运行BERT模型的存储、计算和功耗也不一样。为了解决这个问题，我们提出了一种宽度和深度可伸缩的动态预训练模型DynaBERT。与以往将BERT网络压缩到固定大小或者只在深度方向做可伸缩的方法相比，本文第一次提出来在BERT宽度方向进行可伸缩训练。宽度可伸缩通过调整Transformer层可以并行计算的注意力头和全连接层中间层神经元数目达到。本文还针对宽度方向提出了新颖的网络重连方式使得重要的注意力头和神经元被更多的子网络共享。在基准数据集上的实验结果表明，该模型通过新颖的知识蒸馏策略显著提升了子网络在NLU任务上的准确率。该模型可以根据不同设备的硬件性能部署不同宽度和深度的子网络。并且一旦某个设备部署了BERT模型，该设备也可以根据自身资源条件动态加载已部署模型的一部分进行推理。代码已经开源在https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT。

https://www.zhuanzhi.ai/paper/c3d0e1a923f1659db405ff8b974de647

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DynaBERT” 可以获取《【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

DynaBERT

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解

专知会员服务

27+阅读 · 2020年12月31日

【AAAI2021】多领域多任务预演的终身学习

专知会员服务

25+阅读 · 2020年12月16日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知会员服务

18+阅读 · 2020年10月18日

【NeurIPS2020】迭代深度图学习的图神经网络:更好和鲁棒的节点嵌入

【NeurIPS2020】迭代深度图学习的图神经网络:更好和鲁棒的节点嵌入

专知会员服务

31+阅读 · 2020年9月30日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

图神经网络架构，稳定性，可迁移性

专知会员服务

29+阅读 · 2020年8月8日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

24+阅读 · 2020年4月13日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

NeurIPS2020最新Google《图学习与挖掘》综述教程，附312页ppt与视频

NeurIPS2020最新Google《图学习与挖掘》综述教程，附312页ppt与视频

专知

22+阅读 · 2020年12月9日

【AAAI2021】近似梯度下降的学习图神经网络

【AAAI2021】近似梯度下降的学习图神经网络

专知

8+阅读 · 2020年12月9日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【NeurIPS2020】点针图网络，Pointer Graph Networks

【NeurIPS2020】点针图网络，Pointer Graph Networks

专知

9+阅读 · 2020年9月27日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

【资源】最新BERT相关论文清单汇总

【资源】最新BERT相关论文清单汇总

专知

33+阅读 · 2019年10月2日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

DynaBERT: Dynamic BERT with Adaptive Width and Depth

Arxiv

8+阅读 · 2020年10月9日

Pretrained Transformers Improve Out-of-Distribution Robustness

Arxiv

5+阅读 · 2020年4月13日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Learning Visually Grounded Sentence Representations

Arxiv

5+阅读 · 2018年6月4日

Depth-Gated LSTM

Arxiv

4+阅读 · 2015年8月25日

VIP会员

相关主题

预训练语言模型

相关VIP内容

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解

专知会员服务

27+阅读 · 2020年12月31日

【AAAI2021】多领域多任务预演的终身学习

专知会员服务

25+阅读 · 2020年12月16日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知会员服务

18+阅读 · 2020年10月18日

【NeurIPS2020】迭代深度图学习的图神经网络:更好和鲁棒的节点嵌入

【NeurIPS2020】迭代深度图学习的图神经网络:更好和鲁棒的节点嵌入

专知会员服务

31+阅读 · 2020年9月30日

【NeurIPS2020】图网的主邻域聚合

【NeurIPS2020】图网的主邻域聚合

专知会员服务

33+阅读 · 2020年9月27日

图神经网络架构，稳定性，可迁移性

专知会员服务

29+阅读 · 2020年8月8日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

24+阅读 · 2020年4月13日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

NeurIPS2020最新Google《图学习与挖掘》综述教程，附312页ppt与视频

NeurIPS2020最新Google《图学习与挖掘》综述教程，附312页ppt与视频

专知

22+阅读 · 2020年12月9日

【AAAI2021】近似梯度下降的学习图神经网络

【AAAI2021】近似梯度下降的学习图神经网络

专知

8+阅读 · 2020年12月9日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【NeurIPS2020】点针图网络，Pointer Graph Networks

【NeurIPS2020】点针图网络，Pointer Graph Networks

专知

9+阅读 · 2020年9月27日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

【资源】最新BERT相关论文清单汇总

【资源】最新BERT相关论文清单汇总

专知

33+阅读 · 2019年10月2日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

相关论文

DynaBERT: Dynamic BERT with Adaptive Width and Depth

Arxiv

8+阅读 · 2020年10月9日

Pretrained Transformers Improve Out-of-Distribution Robustness

Arxiv

5+阅读 · 2020年4月13日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Learning Visually Grounded Sentence Representations

Arxiv

5+阅读 · 2018年6月4日

Depth-Gated LSTM

Arxiv

4+阅读 · 2015年8月25日

大家都在搜

CMU博士论文

无人机集群

国防科技创新

软件无线电

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员