【NeurIPS 2020】融入BERT到并行序列模型

2020 年 10 月 16 日 专知


Incorporating BERT into Parallel Sequence Decoding with Adapters


虽然BERT等大规模的预训练语言模型在各种自然语言理解任务上取得了巨大的成功,但如何高效、有效地将它们合并到序列到序列模型和相应的文本生成任务中仍然是一个不容忽视的问题。为了解决这个问题,我们提出采用两种不同的BERT模型分别作为编码器和解码器,并通过引入简单的和轻量级的适配器模块对它们进行微调,这些适配器模块插入到BERT层之间,并针对特定的任务数据集进行调优。这样,我们得到了一个灵活高效的模型,它能够联合利用源端和目标端BERT模型中包含的信息,同时绕过了灾难性遗忘问题。框架中的每个组件都可以看作是一个插件单元,使得框架灵活且任务不相关。该框架基于并行序列译码算法掩模预测,考虑了BERT算法的双向和条件独立性,易于适应传统的自回归译码。我们在神经机器翻译任务上进行了广泛的实验,在实验中,所提出的方法始终优于自回归基线,同时将推理延迟减少了一半,并且在IWSLT14德语-英语/WMT14德语-英语翻译中达到36.49/33.57的BLEU分数。当采用自回归译码时,该方法在WMT14英-德/英-法翻译中的BLEU得分达到30.60/43.56,与最先进的基线模型相当。


https://arxiv.org/abs/2010.06138



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“BERTPS” 可以获取《【NeurIPS 2020】融入BERT到并行序列模型》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
61+阅读 · 2020年8月19日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
【KDD2020】图神经网络生成式预训练
专知
21+阅读 · 2020年7月3日
【资源】最新BERT相关论文清单汇总
专知
33+阅读 · 2019年10月2日
【论文笔记】基于BERT的知识图谱补全
专知
116+阅读 · 2019年9月15日
超越BERT、GPT,微软提出通用预训练模型MASS
机器之心
4+阅读 · 2019年5月10日
Arxiv
0+阅读 · 2020年11月26日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
15+阅读 · 2019年9月11日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
4+阅读 · 2019年2月18日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
26+阅读 · 2017年12月6日
VIP会员
相关论文
Arxiv
0+阅读 · 2020年11月26日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
15+阅读 · 2019年9月11日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
4+阅读 · 2019年2月18日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
26+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员