【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT - 专知VIP

会员服务 ·

0

BERT · 预训练语言模型 · NeurIPS 2020 ·

2020 年 10 月 21 日

【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近来，基于Transformer结构的预训练语言模型（如BERT和RoBERTa）在自然语言处理任务上取得了显著成果。但是，这些模型参数量巨大，限制了其在存储、计算、功耗等性能有限的边缘设备上的部署。将BERT部署到这些设备的困难体现在两个方面：（1）各种终端设备性能各不一样，怎么给不同性能的设备部署适合自身性能的模型；（2）同一个终端设备在不同的情况下可接受的运行BERT模型的存储、计算和功耗也不一样。为了解决这个问题，我们提出了一种宽度和深度可伸缩的动态预训练模型DynaBERT。与以往将BERT网络压缩到固定大小或者只在深度方向做可伸缩的方法相比，本文第一次提出来在BERT宽度方向进行可伸缩训练。宽度可伸缩通过调整Transformer层可以并行计算的注意力头和全连接层中间层神经元数目达到。本文还针对宽度方向提出了新颖的网络重连方式使得重要的注意力头和神经元被更多的子网络共享。在基准数据集上的实验结果表明，该模型通过新颖的知识蒸馏策略显著提升了子网络在NLU任务上的准确率。该模型可以根据不同设备的硬件性能部署不同宽度和深度的子网络。并且一旦某个设备部署了BERT模型，该设备也可以根据自身资源条件动态加载已部署模型的一部分进行推理。代码已经开源在https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT。

成为VIP会员查看完整内容

19

相关内容

BERT

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

深度神经网络模型压缩综述

专知会员服务

116+阅读 · 2020年8月22日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

24+阅读 · 2020年4月13日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

20项任务全面碾压BERT，全新XLNet预训练模型

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

动态记忆网络：向通用NLP更近一步

动态记忆网络：向通用NLP更近一步

AI前线

4+阅读 · 2019年5月16日

Perseus-BERT——业内性能极致优化的BERT训练方案

Perseus-BERT——业内性能极致优化的BERT训练方案

云栖社区

15+阅读 · 2019年2月20日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

11+阅读 · 2019年1月8日

谷歌BERT模型深度解析

谷歌BERT模型深度解析

AINLP

42+阅读 · 2018年11月15日

资源 | 最强预训练模型BERT的Pytorch实现（非官方）

资源 | 最强预训练模型BERT的Pytorch实现（非官方）

全球人工智能

7+阅读 · 2018年10月18日

Longformer: The Long-Document Transformer

Arxiv

2+阅读 · 2020年12月2日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

DynaBERT: Dynamic BERT with Adaptive Width and Depth

Arxiv

8+阅读 · 2020年10月9日

Generating Rationales in Visual Question Answering

Generating Rationales in Visual Question Answering

Arxiv

5+阅读 · 2020年4月4日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

VIP会员

相关主题

预训练语言模型

相关VIP内容

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

深度神经网络模型压缩综述

专知会员服务

116+阅读 · 2020年8月22日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

24+阅读 · 2020年4月13日

【CVPR2020-Oral】用于任务感知的持续学习的条件信道门控网络

专知会员服务

21+阅读 · 2020年4月2日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《毁灭算法：解析以色列在加沙的AI军事行动》

【COLT 2025最新教程】语言生成

以机器速度锁定目标：人工智能的能力与局限

【ICML2025】通过在线世界模型规划的持续强化学习

相关资讯

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

20项任务全面碾压BERT，全新XLNet预训练模型

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

动态记忆网络：向通用NLP更近一步

动态记忆网络：向通用NLP更近一步

AI前线

4+阅读 · 2019年5月16日

Perseus-BERT——业内性能极致优化的BERT训练方案

Perseus-BERT——业内性能极致优化的BERT训练方案

云栖社区

15+阅读 · 2019年2月20日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

11+阅读 · 2019年1月8日

谷歌BERT模型深度解析

谷歌BERT模型深度解析

AINLP

42+阅读 · 2018年11月15日

资源 | 最强预训练模型BERT的Pytorch实现（非官方）

资源 | 最强预训练模型BERT的Pytorch实现（非官方）

全球人工智能

7+阅读 · 2018年10月18日

相关论文

Longformer: The Long-Document Transformer

Arxiv

2+阅读 · 2020年12月2日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

DynaBERT: Dynamic BERT with Adaptive Width and Depth

Arxiv

8+阅读 · 2020年10月9日

Generating Rationales in Visual Question Answering

Generating Rationales in Visual Question Answering

Arxiv

5+阅读 · 2020年4月4日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

微信扫码咨询专知VIP会员