Recent advances in neural machine translation (NMT) have pushed the quality of machine translation systems to the point where they are becoming widely adopted to build competitive systems. However, there is still a large number of languages that are yet to reap the benefits of NMT. In this paper, we provide the first large-scale case study of the practical application of MT in the Turkic language family in order to realize the gains of NMT for Turkic languages under high-resource to extremely low-resource scenarios. In addition to presenting an extensive analysis that identifies the bottlenecks towards building competitive systems to ameliorate data scarcity, our study has several key contributions, including, i) a large parallel corpus covering 22 Turkic languages consisting of common public datasets in combination with new datasets of approximately 2 million parallel sentences, ii) bilingual baselines for 26 language pairs, iii) novel high-quality test sets in three different translation domains and iv) human evaluation scores. All models, scripts, and data will be released to the public.


翻译:神经机器翻译(NMT)的近期进展将机器翻译系统的质量推向了为建立竞争性系统而广泛采用这种系统的程度,然而,仍有大量语言有待获得NMT的好处。在本文件中,我们提供了土耳其语家庭实际应用MT的第一个大规模案例研究,以便在高资源情况下实现土耳其语NMT在极低资源情景下的成果。除了提供广泛分析,查明在建立竞争性系统以缓解数据稀缺方面存在的瓶颈之外,我们的研究还有几项关键贡献,其中包括:一)一个涵盖22种突厥语的大型平行材料,其中包括公共通用数据集,与大约200万个平行句子的新数据集相结合;二)26对语言的双语基线;三)三个不同翻译领域的新型高质量测试组;四)人类评价分数。所有模型、脚本和数据都将向公众公布。

0
下载
关闭预览

相关内容

机器翻译(Machine Translation)涵盖计算语言学和语言工程的所有分支,包含多语言方面。特色论文涵盖理论,描述或计算方面的任何下列主题:双语和多语语料库的编写和使用,计算机辅助语言教学,非罗马字符集的计算含义,连接主义翻译方法,对比语言学等。 官网地址:http://dblp.uni-trier.de/db/journals/mt/
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
已删除
将门创投
7+阅读 · 2019年10月15日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
7+阅读 · 2018年6月1日
Arxiv
5+阅读 · 2018年5月28日
VIP会员
相关资讯
已删除
将门创投
7+阅读 · 2019年10月15日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Top
微信扫码咨询专知VIP会员