The success of Neural Machine Translation (NMT) largely depends on the availability of large bitext training corpora. Due to the lack of such large corpora in low-resource language pairs, NMT systems often exhibit poor performance. Extra relevant monolingual data often helps, but acquiring it could be quite expensive, especially for low-resource languages. Moreover, domain mismatch between bitext (train/test) and monolingual data might degrade the performance. To alleviate such issues, we propose AUGVIC, a novel data augmentation framework for low-resource NMT which exploits the vicinal samples of the given bitext without using any extra monolingual data explicitly. It can diversify the in-domain bitext data with finer level control. Through extensive experiments on four low-resource language pairs comprising data from different domains, we have shown that our method is comparable to the traditional back-translation that uses extra in-domain monolingual data. When we combine the synthetic parallel data generated from AUGVIC with the ones from the extra monolingual data, we achieve further improvements. We show that AUGVIC helps to attenuate the discrepancies between relevant and distant-domain monolingual data in traditional back-translation. To understand the contributions of different components of AUGVIC, we perform an in-depth framework analysis.


翻译:神经机器翻译(NMT)能否成功,主要取决于能否获得大量培训分数。由于在低资源语言配对中缺乏如此庞大的连体,NMT系统往往表现不佳。额外的单语数据往往有帮助,但获得这些数据的费用可能相当昂贵,特别是对低资源语言而言。此外,比特(培训/测试)和单语数据之间的域错配可能会降低性能。为了缓解这些问题,我们提议AUGVIC,这是一个为低资源NMT开发比特样的新的数据增强框架,它利用了给定比特的比特样本,而没有明确使用任何额外的单语数据。NMT系统可以将内部的比特数据多样化,并具有精细的控制。通过对四对包含不同领域数据的低资源语言配对的广泛实验,我们已经表明,我们的方法可以与使用多语言单语数据的传统回译方法相比。当我们把从AUGVIC产生的合成平行数据与超单语数据组合结合起来时,我们取得了进一步的改进。我们表明,AUGVIC帮助加深了对不同语言框架的深度分析。

0
下载
关闭预览

相关内容

数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
42+阅读 · 2020年7月27日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
【ICIP2019教程-NVIDIA】图像到图像转换,附7份PPT下载
专知会员服务
55+阅读 · 2019年11月20日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
5+阅读 · 2019年11月22日
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
8+阅读 · 2018年5月1日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关VIP内容
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
42+阅读 · 2020年7月27日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
【ICIP2019教程-NVIDIA】图像到图像转换,附7份PPT下载
专知会员服务
55+阅读 · 2019年11月20日
Top
微信扫码咨询专知VIP会员