While synthetic bilingual corpora have demonstrated their effectiveness in low-resource neural machine translation (NMT), adding more synthetic data often deteriorates translation performance. In this work, we propose alternated training with synthetic and authentic data for NMT. The basic idea is to alternate synthetic and authentic corpora iteratively during training. Compared with previous work, we introduce authentic data as guidance to prevent the training of NMT models from being disturbed by noisy synthetic data. Experiments on Chinese-English and German-English translation tasks show that our approach improves the performance over several strong baselines. We visualize the BLEU landscape to further investigate the role of authentic and synthetic data during alternated training. From the visualization, we find that authentic data helps to direct the NMT model parameters towards points with higher BLEU scores and leads to consistent translation performance improvement.


翻译:虽然合成双语公司在低资源神经机器翻译(NMT)方面证明了其有效性,但增加更多合成数据往往会恶化翻译绩效。在这项工作中,我们建议用合成和真实数据为NMT提供替代培训。基本想法是在培训期间反复交替合成和真实公司。与以前的工作相比,我们引入了真实数据作为指南,以防止对NMT模型的培训受到噪音合成数据干扰。中英和德英翻译任务实验表明,我们的方法在几个强有力的基线上提高了绩效。我们设想BLEU景观,以进一步调查在替代培训期间真实和合成数据的作用。从可视化来看,我们发现真实数据有助于将NMT模型参数引向BLEU高分点,并导致不断的翻译绩效改进。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
46+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
VIP会员
Top
微信扫码咨询专知VIP会员