GPT-2和BERT证明了在各种自然语言处理任务中使用预训练语言模型(LMs)的有效性。然而,LM调优在应用于资源丰富的任务时常常会出现灾难性的遗忘。在这项工作中,我们介绍了一个协调的训练框架(\方法),这是把预训练的LMs集成到神经机器翻译(NMT)的关键。我们提出的Cnmt包括三种技术: a)渐近精馏,以确保NMT模型能够保留预先训练好的知识; b)动态切换门,避免对预先训练知识的灾难性遗忘 ;c)根据预定策略调整学习进度的策略。我们在机器翻译方面的实验表明,WMT14的英德语言对中,“方法”最多可获得3个BLEU分数,甚至超过了之前最先进的训练前辅助NMT的1.4个BLEU分数。而对于包含4000万对句子的大型WMT14英法任务,我们的基本模型仍然比最先进的Transformer大模型提高了1个以上的BLEU分数。

成为VIP会员查看完整内容
23

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
24+阅读 · 2020年4月20日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
专知会员服务
44+阅读 · 2020年3月6日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
跨语言版BERT:Facebook提出跨语言预训练模型XLM
机器之心
4+阅读 · 2019年2月6日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
3+阅读 · 2018年3月27日
VIP会员
相关主题
相关VIP内容
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
24+阅读 · 2020年4月20日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
专知会员服务
44+阅读 · 2020年3月6日
微信扫码咨询专知VIP会员