Massively multilingual machine translation (MT) has shown impressive capabilities, including zero and few-shot translation between low-resource language pairs. However, these models are often evaluated on high-resource languages with the assumption that they generalize to low-resource ones. The difficulty of evaluating MT models on low-resource pairs is often due the lack of standardized evaluation datasets. In this paper, we present MENYO-20k, the first multi-domain parallel corpus for the low-resource Yor\`ub\'a--English (yo--en) language pair with standardized train-test splits for benchmarking. We provide several neural MT (NMT) benchmarks on this dataset and compare to the performance of popular pre-trained (massively multilingual) MT models, showing that, in almost all cases, our simple benchmarks outperform the pre-trained MT models. A major gain of BLEU $+9.9$ and $+8.6$ (en2yo) is achieved in comparison to Facebook's M2M-100 and Google multilingual NMT respectively when we use MENYO-20k to fine-tune generic models.


翻译:大量多语种机器翻译(MT)显示出令人印象深刻的能力,包括低资源语言对口之间零翻译和少见翻译。然而,这些模型往往在高资源语言上进行评估,假设这些模型一般为低资源语言。评估低资源对口的MT模型的困难往往是由于缺乏标准化的评价数据集。在本文件中,我们介绍了低资源Yor ⁇ ub\'a-English(Yo-en)语言(Yo-en)的第一对多域平行文件(MNYO-20k),并配以标准化的培训测试分解。我们对这一数据集提供了几个神经MT(NMT)基准,并与流行的预先培训(多语种)MT模型的性能进行比较。我们使用MENYO-20k到微调通用模型时,几乎在所有情况下,我们简单的基准都超过了预先培训的MTM模型。BLEU+9.9美元和$+8.6美元(en2yo)的重大收益与FacebookM2M-100和谷多语言NMT分别实现。

0
下载
关闭预览

相关内容

机器翻译(Machine Translation)涵盖计算语言学和语言工程的所有分支,包含多语言方面。特色论文涵盖理论,描述或计算方面的任何下列主题:双语和多语语料库的编写和使用,计算机辅助语言教学,非罗马字符集的计算含义,连接主义翻译方法,对比语言学等。 官网地址:http://dblp.uni-trier.de/db/journals/mt/
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
5+阅读 · 2018年10月23日
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
6+阅读 · 2018年2月28日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
相关VIP内容
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Top
微信扫码咨询专知VIP会员