Pre-training (PT) and back-translation (BT) are two simple and powerful methods to utilize monolingual data for improving the model performance of neural machine translation (NMT). This paper takes the first step to investigate the complementarity between PT and BT. We introduce two probing tasks for PT and BT respectively and find that PT mainly contributes to the encoder module while BT brings more benefits to the decoder. Experimental results show that PT and BT are nicely complementary to each other, establishing state-of-the-art performances on the WMT16 English-Romanian and English-Russian benchmarks. Through extensive analyses on sentence originality and word frequency, we also demonstrate that combining Tagged BT with PT is more helpful to their complementarity, leading to better translation quality. Source code is freely available at https://github.com/SunbowLiu/PTvsBT.


翻译:培训前(PT)和回译(BT)是使用单语数据改进神经机翻译模型(NMT)的两种简单而有力的方法,本文件是调查PT和BT之间互补性的第一步。我们分别为PT和BT引入了两项检验任务,发现PT主要有助于编码模块,而BT给解译器带来更多好处。实验结果表明,PT和BT相辅相成,建立了WMT16英语-罗马尼亚语和英语-俄语基准的最新表现。通过对原判和字数频率的广泛分析,我们还表明,将Ttaged BT与PT相结合,对其互补性更有帮助,从而提高翻译质量。源码可免费查阅https://github.com/SunbowLiu/PTvsBT。

0
下载
关闭预览

相关内容

机器翻译(Machine Translation)涵盖计算语言学和语言工程的所有分支,包含多语言方面。特色论文涵盖理论,描述或计算方面的任何下列主题:双语和多语语料库的编写和使用,计算机辅助语言教学,非罗马字符集的计算含义,连接主义翻译方法,对比语言学等。 官网地址:http://dblp.uni-trier.de/db/journals/mt/
专知会员服务
124+阅读 · 2020年9月8日
《动手学深度学习》(Dive into Deep Learning)PyTorch实现
专知会员服务
120+阅读 · 2019年12月31日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
Top
微信扫码咨询专知VIP会员