WMT 2019国际机器翻译大赛：微软亚洲研究院以7项第一成为冠军

2019 年 4 月 22 日 微软研究院AI头条

近日，由国际计算语言学协会ACL（The Association for Computational Linguistics）举办的WMT 2019国际机器翻译比赛的客观评测结果揭晓（点击文末阅读原文查看），微软亚洲研究院机器学习组在参加的11项机器翻译任务中，有7项获得了第一名，另外4项获得第二名，凭借多维度的技术创新成为冠军团队。

图片来自大赛网站，横向为源语种，纵向为目标语种

比赛结果遥遥领先：７项任务获第一，４项任务获第二

WMT的全称为 Conference on Machine Translation (http://www.statmt.org/wmt19/)，是全球学术界公认的国际顶级机器翻译比赛。自2006年至今，WMT机器翻译比赛已经成功举办14届，每一次比赛都是全球各大高校、科技公司与学术机构展示自身机器翻译实力的较量，更是见证了机器翻译技术的不断进步。

在本届WMT 2019大赛中（http://www.statmt.org/wmt19/translation-task.html），共有来自全球的50多支队伍参加，包括微软、Facebook、百度、字节跳动、平安、日本情报通信研究机构（NICT）等企业、科研机构和高校。大赛共设置了19项不同语言之间的翻译任务，微软亚洲研究院参加了11项，其中7项翻译任务荣获第一，包括：德语－英语、德语－法语、法语－德语、中文－英语、英语－立陶宛语、英语－芬兰语、俄语－英语。另外4项任务获得第二，包括：英语－德语、立陶宛语－英语、芬兰语－英语、英语－哈萨克语。来自微软的另外一支团队则在英语-德语的任务上获得了第一名。

结果显示，此次大赛的亚军团队在3项任务中获得了第一，季军团队则有两项获得第一，来自微软亚洲研究院的神经网络机器翻译算法的表现遥遥领先于其他参赛队伍。

多维度的算法改进，让机器翻译更优秀

2018年3月，由微软亚洲研究院与微软雷德蒙研究院共同研发的机器翻译系统便在WMT 2017大会上发布的通用新闻报道测试newstest2017的中-英测试集上，达到了可与人工翻译媲美的水平。该机器翻译系统融合了微软亚洲研究院机器学习组的最近研究成果——对偶学习（Dual Learning）和推敲网络（Deliberation Networks），以及自然语言计算组的最新技术——联合训练（Joint Training）和一致性规范（Agreement Regularization），成为首个在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统。

在WMT 2019的比赛中，微软亚洲研究院机器学习组再次将多个创新的算法运用在了机器翻译的任务中，从学习机制、预训练、网络架构优化、数据增强等方面，大大提升了机器翻译结果的质量。

此次使用的创新算法包括：

• MADL：Multi-agent dual learning，多体对偶学习

• MASS：Masked sequence to sequence pre-training，屏蔽序列到序列的预训练

• NAO：Automatic neural architecture optimization，自动神经网络架构优化

• SCA：Soft contextual data augmentation，软性上下文数据增强

其中，关于NAO的论文已被NIPS 2018收录，关于MADL的论文已被ICLR 2019收录，关于MASS的论文则被ICML 2019收录。

新的学习机制：MADL多体对偶学习

在机器翻译中，训练数据的数据量越大、质量越高，其训练的翻译结果越好。基于对偶学习，创新的MADL算法利用正向与反向翻译的多个模型对单语数据进行前向和后向翻译并打分，然后将得分最高的数据放置到训练数据中从而获得更多高质量的数据，或者将单语数据的前向后向重建误差加入到损失函数里来增强学习过程。MADL不局限于某个语种，可以在任何源语种和目标语种之间提供这样的对偶学习能力。

更好的预训练：MASS屏蔽序列到序列的预训练

MASS是针对序列生成设计的预训练算法，比BERT以及GPT/2更加通用。BERT模型通常是屏蔽掉句子中的一个单词，然后通过分类来预测这个词；GPT模型是给定前面的词，通过分类生成后面的词，直至一句话或整篇文档；两者都是预训练一个编码器。而翻译则是基于编码器-解码器-注意力框架，因此BERT和GPT/2并不能很好地适用于翻译任务。但MASS则能将句子中的部分连续片断随机屏蔽，然后训练一个编码器-解码器-注意力模型预测生成该片断，从而利用海量单语数据预训练然后初始化翻译模型。因此，MASS比BERT和GPT/2都更适用于机器翻译这个应用场景。实验证明，MASS屏蔽翻译句子中50%的片断效果最好。

网络架构优化: NAO自动神经网络架构优化

NAO是从神经网络结构优化的角度去提升机器翻译水平。不同的网络结构通常对于翻译结果有着较大影响，NAO把离散的网络结构嵌入到连续的向量空间，从而通过连续优化找到更好的网络结构。与固定的Transformer相比，NAO可以找到更多样的网络结构，和Transformer形成互补优势，使得机器翻译多模型集成的结果更佳。

数据增强：SCA软性上下文数据增强

所谓SCA软性上下文数据增强，是在双语训练数据中随机屏蔽某个词，再基于语言模型利用上下文来预测这个词，随后选择概率最高的几个词，根据预测概率把这些预测的词线性组合到一起，替换原来被屏蔽的词。这样一个句子/句对可以生成多个句子/句对，同一个句子的翻译就可以出现多个合理的翻译结果，这也与实际翻译过程中翻译结果并不唯一这一事实相吻合。通过如此软性上下文数据增强，从而扩大训练数据的规模，增强数据质量，得到更好的翻译结果。

在此次的11项机器翻译任务中，微软亚洲研究院的研究员们在每个翻译任务上采用了上述不同的技术，便已取得了不俗的成绩。未来，研究团队计划将这四个层面的创新技术整合，并且通过与微软翻译产品部门的合作，将新技术尽快转化到微软翻译产品中。