The scarcity of parallel data is a major obstacle for training high-quality machine translation systems for low-resource languages. Fortunately, some low-resource languages are linguistically related or similar to high-resource languages; these related languages may share many lexical or syntactic structures. In this work, we exploit this linguistic overlap to facilitate translating to and from a low-resource language with only monolingual data, in addition to any parallel data in the related high-resource language. Our method, NMT-Adapt, combines denoising autoencoding, back-translation and adversarial objectives to utilize monolingual data for low-resource adaptation. We experiment on 7 languages from three different language families and show that our technique significantly improves translation into low-resource language compared to other translation baselines.


翻译:缺乏平行数据是培训低资源语言高质量机器翻译系统的主要障碍,幸运的是,一些低资源语言与高资源语言有语言联系或类似的语言;这些相关语言可能共享许多词汇结构或合成结构。在这项工作中,我们利用这种语言重叠,除了相关高资源语言中的任何平行数据外,还利用只使用单一语言翻译和从仅使用单一语言的低资源语言翻译数据。我们的方法,即NMT-Adapt, 结合解密自动编码、回译和对抗性目标,利用单一语言数据进行低资源适应。我们实验了三个不同语言家庭的7种语言,并表明我们的技术大大改进了将低资源语言翻译到其他翻译基线的工作。

0
下载
关闭预览

相关内容

最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
38+阅读 · 2020年12月26日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
已删除
将门创投
6+阅读 · 2019年9月3日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
神器Cobalt Strike3.13破解版
黑白之道
12+阅读 · 2019年3月1日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【泡泡一分钟】一种实用且高效的多视图匹配方法
泡泡机器人SLAM
6+阅读 · 2018年11月19日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
大数据的分布式算法
待字闺中
3+阅读 · 2017年6月13日
Arxiv
4+阅读 · 2019年9月26日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关资讯
已删除
将门创投
6+阅读 · 2019年9月3日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
神器Cobalt Strike3.13破解版
黑白之道
12+阅读 · 2019年3月1日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【泡泡一分钟】一种实用且高效的多视图匹配方法
泡泡机器人SLAM
6+阅读 · 2018年11月19日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
大数据的分布式算法
待字闺中
3+阅读 · 2017年6月13日
Top
微信扫码咨询专知VIP会员