Machine translation systems achieve near human-level performance on some languages, yet their effectiveness strongly relies on the availability of large amounts of parallel sentences, which hinders their applicability to the majority of language pairs. This work investigates how to learn to translate when having access to only large monolingual corpora in each language. We propose two model variants, a neural and a phrase-based model. Both versions leverage a careful initialization of the parameters, the denoising effect of language models and automatic generation of parallel data by iterative back-translation. These models are significantly better than methods from the literature, while being simpler and having fewer hyper-parameters. On the widely used WMT'14 English-French and WMT'16 German-English benchmarks, our models respectively obtain 28.1 and 25.2 BLEU points without using a single parallel sentence, outperforming the state of the art by more than 11 BLEU points. On low-resource languages like English-Urdu and English-Romanian, our methods achieve even better results than semi-supervised and supervised approaches leveraging the paucity of available bitexts. Our code for NMT and PBSMT is publicly available.


翻译:机器翻译系统在某些语言上接近人的水平性能,但其效力在很大程度上取决于大量平行句子的可用性,这妨碍了对大多数语言的可适用性。这项工作调查了在只接触每种语言的大型单语体时如何学习翻译。我们建议了两种模型变体,一种神经和以词为基础的模型。两种版本都利用了仔细的参数初始化、语言模型的分解效应和通过迭代回翻译自动生成平行数据。这些模型比文献中的方法要好得多,但比较简单,而且超度也更少。在广泛使用的WMT'14英语-法语和WMT'16德语-英语基准中,我们的模型分别获得28.1和25.2 BLEU点,而没有使用单一的平行句子,比文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、文学、

9
下载
关闭预览

相关内容

机器翻译(Machine Translation)涵盖计算语言学和语言工程的所有分支,包含多语言方面。特色论文涵盖理论,描述或计算方面的任何下列主题:双语和多语语料库的编写和使用,计算机辅助语言教学,非罗马字符集的计算含义,连接主义翻译方法,对比语言学等。 官网地址:http://dblp.uni-trier.de/db/journals/mt/
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Machine Learning:十大机器学习算法
开源中国
20+阅读 · 2018年3月1日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
4+阅读 · 2018年1月29日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Machine Learning:十大机器学习算法
开源中国
20+阅读 · 2018年3月1日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
相关论文
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
4+阅读 · 2018年1月29日
Top
微信扫码咨询专知VIP会员