Accurate terminology translation is crucial for ensuring the practicality and reliability of neural machine translation (NMT) systems. To address this, lexically constrained NMT explores various methods to ensure pre-specified words and phrases appear in the translation output. However, in many cases, those methods are studied on general domain corpora, where the terms are mostly uni- and bi-grams (>98%). In this paper, we instead tackle a more challenging setup consisting of domain-specific corpora with much longer n-gram and highly specialized terms. Inspired by the recent success of masked span prediction models, we propose a simple and effective training strategy that achieves consistent improvements on both terminology and sentence-level translation for three domain-specific corpora in two language pairs.


翻译:准确的术语翻译对于确保神经机翻译系统的实际性和可靠性至关重要。为此,受到法律限制的NMT探索了各种方法,以确保翻译输出中出现预先指定的词句和短语,但在许多情况下,这些方法是在一般域Corbora研究的,其术语大多为单数和双数(>98%),在本文中,我们所处理的是一个更具挑战性的结构,由特定域的正克和高度专业化的NMT组成。受最近蒙面的全域预测模型的成功鼓舞,我们提出了一个简单有效的培训战略,使三种特定域的Corbora的术语和判决翻译在两种语言的组合中都得到一致的改进。

0
下载
关闭预览

相关内容

专知会员服务
79+阅读 · 2021年7月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
站在BERT肩膀上的NLP新秀们(PART III)
AINLP
11+阅读 · 2019年6月18日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
3+阅读 · 2018年6月1日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
Top
微信扫码咨询专知VIP会员