Pre-trained language models like BERT and its variants have recently achieved impressive performance in various natural language understanding tasks. However, BERT heavily relies on the global self-attention block and thus suffers large memory footprint and computation cost. Although all its attention heads query on the whole input sequence for generating the attention map from a global perspective, we observe some heads only need to learn local dependencies, which means the existence of computation redundancy. We therefore propose a novel span-based dynamic convolution to replace these self-attention heads to directly model local dependencies. The novel convolution heads, together with the rest self-attention heads, form a new mixed attention block that is more efficient at both global and local context learning. We equip BERT with this mixed attention design and build a ConvBERT model. Experiments have shown that ConvBERT significantly outperforms BERT and its variants in various downstream tasks, with lower training cost and fewer model parameters. Remarkably, ConvBERTbase model achieves 86.4 GLUE score, 0.7 higher than ELECTRAbase, while using less than 1/4 training cost. Code and pre-trained models will be released.


翻译:在各种自然语言理解任务中,如BERT及其变体等受过训练的语言模型最近取得了令人印象深刻的成绩。然而,BERT严重依赖全球自留区块,因此产生了巨大的记忆足迹和计算成本。尽管它的所有关注点头都询问整个输入序列,以便从全球角度生成关注地图,但我们观察到一些负责人只需要学习当地依赖性,这意味着存在计算冗余。因此,我们提议以新的跨基动态演进来取代这些自留区头直接模拟本地依赖性。新的革命头目与休息自留区头一起形成了一个新的混合关注块,在全球和地方背景下学习方面都更为有效。我们给BERT配备了这种混合关注设计,并建立了ConvBERT模型。实验表明,CONBERT在各种下游任务中明显地超越了BERT及其变体,培训成本较低,模型也较少。值得注意的是,ConBERTBase模型取得了86.4 GLUE分,比ELTRABase值高出0.7,同时使用不到四分之一的培训成本。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
298+阅读 · 2020年11月26日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
【论文笔记】基于BERT的知识图谱补全
专知
116+阅读 · 2019年9月15日
20项任务全面碾压BERT,全新XLNet预训练模型
机器学习算法与Python学习
15+阅读 · 2019年6月20日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
DeepLab V3
计算机视觉战队
9+阅读 · 2018年4月2日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2020年12月30日
Arxiv
8+阅读 · 2020年10月9日
Arxiv
21+阅读 · 2018年5月23日
VIP会员
相关资讯
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
【论文笔记】基于BERT的知识图谱补全
专知
116+阅读 · 2019年9月15日
20项任务全面碾压BERT,全新XLNet预训练模型
机器学习算法与Python学习
15+阅读 · 2019年6月20日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
DeepLab V3
计算机视觉战队
9+阅读 · 2018年4月2日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员