The past year has witnessed rapid advances in sequence-to-sequence (seq2seq) modeling for Machine Translation (MT). The classic RNN-based approaches to MT were first out-performed by the convolutional seq2seq model, which was then out-performed by the more recent Transformer model. Each of these new approaches consists of a fundamental architecture accompanied by a set of modeling and training techniques that are in principle applicable to other seq2seq architectures. In this paper, we tease apart the new architectures and their accompanying techniques in two ways. First, we identify several key modeling and training techniques, and apply them to the RNN architecture, yielding a new RNMT+ model that outperforms all of the three fundamental architectures on the benchmark WMT'14 English to French and English to German tasks. Second, we analyze the properties of each fundamental seq2seq architecture and devise new hybrid architectures intended to combine their strengths. Our hybrid models obtain further improvements, outperforming the RNMT+ model on both benchmark datasets.


翻译:在过去的一年中,机器翻译的顺序到顺序(seq2seq)建模取得了迅速的进展。经典的RNN对MT采用的方法首先表现为革命后继2seq模型,后来的变异模型则表现为较新的变异模型。这些新方法中,每一种都包括一个基本架构,并辅之以一套原则上适用于其他后继2seq结构的模型和培训技术。在本文中,我们以两种方式拆分了新架构及其配套技术。首先,我们确定了几个关键的建模和培训技术,并将其应用到RNNN,产生了一个新的RNMT+模型,它超越了WMT'14英文对法文、英文对德文基准的所有三个基本架构。第二,我们分析了每个基本后继架构的特性,并设计了新的混合结构,目的是将两者的优势结合起来。我们的混合模型得到了进一步的改进,在两个基准数据集上都表现了RNMT+模型。

4
下载
关闭预览

相关内容

seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】RNN最新研究进展综述
机器学习研究会
25+阅读 · 2018年1月6日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Phrase-Based & Neural Unsupervised Machine Translation
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
5+阅读 · 2018年1月16日
VIP会员
相关论文
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Phrase-Based & Neural Unsupervised Machine Translation
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
7+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
5+阅读 · 2018年1月16日
Top
微信扫码咨询专知VIP会员