Multilingual pre-training significantly improves many multilingual NLP tasks, including machine translation. Most existing methods are based on some variants of masked language modeling and text-denoising objectives on monolingual data. Multilingual pre-training on monolingual data ignores the availability of parallel data in many language pairs. Also, some other works integrate the available human-generated parallel translation data in their pre-training. This kind of parallel data is definitely helpful, but it is limited even in high-resource language pairs. This paper introduces a novel semi-supervised method, SPDG, that generates high-quality pseudo-parallel data for multilingual pre-training. First, a denoising model is pre-trained on monolingual data to reorder, add, remove, and substitute words, enhancing the pre-training documents' quality. Then, we generate different pseudo-translations for each pre-training document using dictionaries for word-by-word translation and applying the pre-trained denoising model. The resulting pseudo-parallel data is then used to pre-train our multilingual sequence-to-sequence model, PEACH. Our experiments show that PEACH outperforms existing approaches used in training mT5 and mBART on various translation tasks, including supervised, zero- and few-shot scenarios. Moreover, PEACH's ability to transfer knowledge between similar languages makes it particularly useful for low-resource languages. Our results demonstrate that with high-quality dictionaries for generating accurate pseudo-parallel, PEACH can be valuable for low-resource languages.


翻译:多语言预训练显著提高了许多多语言NLP任务的性能,包括机器翻译。大多数现有方法基于单语数据上的某些变体的遮蔽语言建模和文本去噪目标来进行多语言预训练。单语数据上的多语言预训练忽略了许多语种之间可用的平行数据。此外,有些其他工作将可用的人工平行翻译数据整合到其预训练中。这种平行数据确实有帮助,但即使在高资源语言对中也是有限的。本文介绍了一种新的半监督方法SPDG,用于为多语言预训练生成高质量的伪平行数据。首先,对单语数据进行去噪预训练,以重新排序、添加、删除和替换单词,增强预训练文档的质量。然后,使用字典进行逐字翻译并应用预训练的去噪模型为每个预训练文档生成不同的伪翻译。然后将生成的伪平行数据用于预训练我们的多语言序列到序列模型PEACH。我们的实验表明,PEACH在各种翻译任务中均优于用于训练mT5和mBART的现有方法,包括监督、零样本和少样本场景。此外,PEACH在类似语言之间传递知识的能力使其特别适用于低资源语言。我们的研究结果表明,通过使用高质量的字典生成准确的伪平行数据,PEACH可以为低资源语言提供有价值的支持。

0
下载
关闭预览

相关内容

【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
18+阅读 · 2022年6月14日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
26+阅读 · 2020年7月23日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
32+阅读 · 2020年3月30日
NAACL 2022 | 机器翻译SOTA模型的蒸馏
PaperWeekly
1+阅读 · 2022年6月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月22日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
Arxiv
13+阅读 · 2020年4月12日
VIP会员
相关VIP内容
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
18+阅读 · 2022年6月14日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
26+阅读 · 2020年7月23日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
32+阅读 · 2020年3月30日
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员