虽然BERT等大规模的预训练语言模型在各种自然语言理解任务上取得了巨大的成功,但如何高效、有效地将它们合并到序列到序列模型和相应的文本生成任务中仍然是一个不容忽视的问题。为了解决这个问题,我们提出采用两种不同的BERT模型分别作为编码器和解码器,并通过引入简单的和轻量级的适配器模块对它们进行微调,这些适配器模块插入到BERT层之间,并针对特定的任务数据集进行调优。这样,我们得到了一个灵活高效的模型,它能够联合利用源端和目标端BERT模型中包含的信息,同时绕过了灾难性遗忘问题。框架中的每个组件都可以看作是一个插件单元,使得框架灵活且任务不相关。该框架基于并行序列译码算法掩模预测,考虑了BERT算法的双向和条件独立性,易于适应传统的自回归译码。我们在神经机器翻译任务上进行了广泛的实验,在实验中,所提出的方法始终优于自回归基线,同时将推理延迟减少了一半,并且在IWSLT14德语-英语/WMT14德语-英语翻译中达到36.49/33.57的BLEU分数。当采用自回归译码时,该方法在WMT14英-德/英-法翻译中的BLEU得分达到30.60/43.56,与最先进的基线模型相当。

https://arxiv.org/abs/2010.06138

成为VIP会员查看完整内容
25

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
【NeurIPS 2020】通过双向传播的可扩展图神经网络
专知会员服务
27+阅读 · 2020年11月3日
【NeurIPS 2020 - 斯坦福】知识图谱中多跳逻辑推理的Beta嵌入
【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
八篇NeurIPS 2019【图神经网络(GNN)】相关论文
专知会员服务
43+阅读 · 2020年1月10日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
BERT, RoBERTa, DistilBERT, XLNet的用法对比
AI科技评论
4+阅读 · 2019年9月15日
20项任务全面碾压BERT,全新XLNet预训练模型
机器学习算法与Python学习
15+阅读 · 2019年6月20日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
11+阅读 · 2018年1月15日
VIP会员
相关资讯
相关论文
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
4+阅读 · 2019年2月18日
Arxiv
11+阅读 · 2018年1月15日
微信扫码咨询专知VIP会员