In neural machine translation (NMT), monolingual data in the target language are usually exploited through a method so-called "back-translation" to synthesize additional training parallel data. The synthetic data have been shown helpful to train better NMT, especially for low-resource language pairs and domains. Nonetheless, large monolingual data in the target domains or languages are not always available to generate large synthetic parallel data. In this work, we propose a new method to generate large synthetic parallel data leveraging very small monolingual data in a specific domain. We fine-tune a pre-trained GPT-2 model on such small in-domain monolingual data and use the resulting model to generate a large amount of synthetic in-domain monolingual data. Then, we perform back-translation, or forward translation, to generate synthetic in-domain parallel data. Our preliminary experiments on three language pairs and five domains show the effectiveness of our method to generate fully synthetic but useful in-domain parallel data for improving NMT in all configurations. We also show promising results in extreme adaptation for personalized NMT.


翻译:在神经机器翻译(NMT)中,目标语言的单一语言数据通常通过所谓的“回译”方法来利用,以合成更多的培训平行数据。合成数据已证明有助于培训更好的NMT,特别是低资源语言对口和领域。然而,目标领域或语言的大型单一语言数据并不总是可用于生成大型合成平行数据。在这项工作中,我们提出了一种新的方法来生成大型合成平行数据,在特定领域利用非常小的单一语言数据。我们微调了经过培训的GPT-2模型,用于这种小的内部单语数据,并使用该模型生成大量合成的单语言单语数据。然后,我们进行回译或前期翻译,以生成合成的平行数据。我们在三个语言对口和五个领域进行的初步实验表明,我们制作完全合成但实用的平行数据的方法对于在所有配置中改进NMT的有效性。我们还展示了在个人化NMT的极端适应方面有希望的结果。

0
下载
关闭预览

相关内容

【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
哈工大SCIR多名师生参加COLING 2018
哈工大SCIR
10+阅读 · 2018年9月1日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关VIP内容
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
Top
微信扫码咨询专知VIP会员