Mined bitexts can contain imperfect translations that yield unreliable training signals for Neural Machine Translation (NMT). While filtering such pairs out is known to improve final model quality, we argue that it is suboptimal in low-resource conditions where even mined data can be limited. In our work, we propose instead, to refine the mined bitexts via automatic editing: given a sentence in a language xf, and a possibly imperfect translation of it xe, our model generates a revised version xf' or xe' that yields a more equivalent translation pair (i.e., <xf, xe'> or <xf', xe>). We use a simple editing strategy by (1) mining potentially imperfect translations for each sentence in a given bitext, (2) learning a model to reconstruct the original translations and translate, in a multi-task fashion. Experiments demonstrate that our approach successfully improves the quality of CCMatrix mined bitext for 5 low-resource language-pairs and 10 translation directions by up to ~ 8 BLEU points, in most cases improving upon a competitive back-translation baseline.


翻译:被开采的位元体可以包含不完善的翻译,为神经机器翻译(NMT)产生不可靠的培训信号。 虽然过滤这些配对可以提高最终模型质量,但我们认为,在低资源条件下,即使雷区数据也受到限制,这是不理想的。 在我们的工作中,我们提议通过自动编辑来改进被开采的位元体:用一种语言xf给一个句子,并且可能不完美的翻译 xe,我们的模型产生一个修订版 xf 或 xe,产生一个更等效的翻译配对(即 < xf, xe 或 < xf', xe )。 我们使用简单的编辑战略, (1) 在给定的位数中挖掘每个句子的潜在不完善的翻译, (2) 学习一个模型来重建原始翻译,并以多种方式翻译。 实验表明,我们的方法成功地提高了5种低资源语言版面和10个翻译方向的CMatrix比特的质量, 最高可达~ 8 BLEU 点。

0
下载
关闭预览

相关内容

机器翻译(Machine Translation)涵盖计算语言学和语言工程的所有分支,包含多语言方面。特色论文涵盖理论,描述或计算方面的任何下列主题:双语和多语语料库的编写和使用,计算机辅助语言教学,非罗马字符集的计算含义,连接主义翻译方法,对比语言学等。 官网地址:http://dblp.uni-trier.de/db/journals/mt/
【杜克-Bhuwan Dhingra】语言模型即知识图谱,46页ppt
专知会员服务
65+阅读 · 2021年11月15日
专知会员服务
123+阅读 · 2020年9月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
75+阅读 · 2020年7月26日
MIT新书《强化学习与最优控制》
专知会员服务
269+阅读 · 2019年10月9日
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
现代IM系统中的消息系统架构 - 架构篇
云栖社区
4+阅读 · 2019年4月16日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关资讯
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
现代IM系统中的消息系统架构 - 架构篇
云栖社区
4+阅读 · 2019年4月16日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员