探索海量多语言大规模神经机器翻译

2019 年 11 月 25 日 谷歌开发者

文 / Ankur Bapna 软件工程师与 Orhan Firat 研究员，Google Research

“或许，翻译之道便是从每种语言向下回归到一种人类可以交流互通的基础，一种真正的，尚未被揭示的通用“语言”，进而以任何方便的形式重新构建。” — Warren Weaver，1949 年

过去几年中，得益于神经机器翻译 (Neural Machine Translation, NMT) 的发展，机器翻译的质量取得显著提升，帮助打破世界各地的语言壁垒。不过，NMT 的成功主要归功于大量监督学习的训练数据。但是，该如何处理语料稀少甚至缺失的语言呢？多语言神经机器翻译 (Multilingual NMT) 与 “来自一种语言的学习信号应该对提升其他语言翻译质量也有一定帮助 ”的归纳偏置的结合是一种潜在补救措施。

多语言机器翻译使用一个翻译模型来处理多种语言。无论是自动语音识别和文本转语音系统，还是先前针对多语言翻译的研究 [论文 1、论文 2、论文 3]，都证实了多语言训练在语料稀缺语种上的成功。我们曾研究：当控制每种语言的训练数据量时，增加单个神经网络可学习的语言数量的效果。但是，解除所有约束条件后会怎么样？如果不考虑各种语言在数据规模、文本、复杂性和领域方面的巨大差异，我们能否使用所有可用数据来训练单个模型？

在《大规模多语言神经机器翻译现状：发现与挑战》(Massively Multilingual Neural Machine Translation in the Wild:Findings and Challenges) 以及后续论文 [论文 4、论文 5、论文 6、论文 7] 中，我们使用超过 500 亿个参数针对超过 250 亿个句对（100 多种语言与英语的双向语言对）进行单个 NMT 模型训练，从而挑战多语言 NMT 的极限。最终得出一种海量多语言大规模神经机器翻译方法 (Massively Multilingual, Massive Neural Machine Translation, M4)。无论语料稀少或丰富，此方法可大幅提升语言的翻译质量，并很容易适应各个领域/语言，同时在下游的跨语言迁移任务中也能表现出色。

大规模多语言机器翻译

尽管从大语种到小语种的数据倾斜是 NMT 领域的一项巨大挑战，但它也为研究 语言迁移 创造了理想场景：我们可以将训练一种语言获得的数据分析结果应用于其他语言的翻译。在数据分布中，一端为法语、德语和西班牙语等语料丰富语言，其中包含数十亿个并行样本；而另一端为约鲁巴语、信德语和夏威夷语等语料稀少语言的监督学习数据，只包含几万个样本。

所有语言的语料数量（对数标度），以及仅使用各自的双语语料训练翻译模型的质量（BLEU 得分）

在使用所有可用数据（超过 250 亿个来自 103 种语言的样本）进行训练后，我们观察到：语料越少的语言越有显著的翻译质量提升，这将语料最少的 30 多种语言的翻译质量平均提高了 5 个 BLEU点。对比的两个模型一个是双语基线模型（即仅使用特定的两种语言进行训练的模型），另一个是通用的多语言模型。而后者对于每种语言的具体表征容量(Representational Capacity) 居然和前者差不多！因此尽管这种效果已得到证明，但还是令人喜出望外。此结果表明，大规模多语言模型拥有强大的泛化能力，并且能在大量不同语言中找出表征相似性。

对比103个双语基线模型与M4模型的表现，可以发现语料少的语言在 M4 模型中评分升高

在 EMNLP 2019 的论文 [5] 中，我们比较了多语言模型为不同语言生成的表征。我们发现，多语言模型无需外部约束即可针对语法相似的语言学习共同表征，从而验证利用这些相似性的长期直觉和经验结果。在 [论文 6] 中，我们进一步表明，这些所学表征在跨语言的下游迁移任务上同样有效。

根据表征相似性对所有 103 种语言的编码表征进行聚类可视化。我们按语系对语言进行颜色编码

构建大规模神经网络

在 M4 模型加入更多语料稀少的语言之后，语料丰富的语言的翻译质量开始下降。我们在多任务设置中观察到这种回归，其原因是任务间的竞争和语言迁移的单向性（即从语料丰富的语言到语料稀少的语言）。在研究更好的学习和容量控制算法来缓解这种负向迁移时，我们还通过增加模型参数来扩大神经网络，以扩大其表征容量，从而提高语料库丰富的语言的翻译质量。

为扩大神经网络容量，我们选择了大量设计方案，包括添加更多层或拓宽隐藏表征。我们延续训练更深层翻译网络的研究，利用 GPipe [论文 4] 来训练 128 层的 Transformer（其中包含超过 60 亿个参数）。扩大模型容量可大幅提升模型在所有语言上的性能表现（平均提高 5 个 BLEU 点）。我们还研究了超深网络的其他特性，包括深度与宽度之间的权衡、可训练性挑战，以及将 Transformer 扩展到超过 1500 多层并加入 840 亿个参数。

扩大模型容量的方法并非仅限于扩展深度，另一种非常合理的补充方案是探索全新架构，以便利用该问题的多任务性质。我们修改了 Transformer 架构，通过使用 Sparsely-Gated Mixture of Experts 替换常规前馈层，使得模型容量大幅提升，从而能成功训练并传递 500 亿个参数，并最终全面提升翻译质量。

相较于 103 个独立的双语基线，当我们增加容量（参数数量）时，M4 模型的翻译质量得到了提升

提高 M4 的实用性

针对每种语言、领域或迁移任务，用极高的计算成本来训练大型模型显得非常低效。为此，我们提出一些方法 [论文 7] 来提高这些模型的实用性，例如通过使用容量可调层使新模型适应特定的语言或领域，而无需更改原始模型。

未来展望

截至本世纪末，目前使用的 7000 种语言中，至少有一半将不复存在 *。

多语言机器翻译能否拯救这些语言？我们将 M4 方法视为拯救未来 1000 种语言的基石；以这种多语言模型为开端，我们可以轻松扩展到新语言、新领域和新的下游任务，即使没有并行数据也不用担心。

当然，前方的道路仍然坎坷崎岖，要获得通用的多语言机器翻译解决方案，我们还需要一些跨领域的合作。正因如此，对于有兴趣探索多任务学习、元学习、深度网络训练动态的机器学习开发者和理论研究者而言，多语言 NMT 是一种可信的测试平台。我们还有很长的路要走。

* 引自《剑桥濒危语言手册》(The Cambridge Handbook of Endangered Languages)，Austin 和 Sallabank 编著，于 2011 年出版。↩

致谢

感谢 Naveen Arivazhagan、Dmitry Lepikhin、Melvin Johnson、Maxim Krikun、Mia Chen、Yuan Cao、Yanping Huang、Sneha Kudugunta、Isaac Caswell、Aditya Siddhant、Wei Wang、Roee Aharoni、Sébastien Jean、George Foster、Colin Cherry、Wolfgang Macherey、Zhifeng Chen 和 Yonghui Wu 在此工作中做出的贡献。同时感谢 Google 翻译、Brain 及 Lingvo 开发团队、Jakob Uszkoreit、Noam Shazeer、Hyouk Joong Lee、Dehao Chen、Youlong Cheng、David Grangier、Colin Raffel、Katherine Lee、Thang Luong、Geoffrey Hinton、Manisha Jain、Pendar Yousefi 和 Macduff Hughes 提供的支持和协助。

如果您想详细了解本文的相关内容，请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题：

自动语音识别
https://ai.googleblog.com/2019/09/large-scale-multilingual-speech.html
多语言翻译研究 - 论文 1
https://www.aclweb.org/anthology/P15-1166/
多语言翻译研究 - 论文 2
https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html
多语言翻译研究 - 论文 3
https://www.aclweb.org/anthology/N16-1101.pdf
多语言翻译研究 - 论文 4
https://arxiv.org/pdf/1811.06965.pdf
多语言翻译研究 - 论文 5
https://arxiv.org/abs/1909.02197
多语言翻译研究 - 论文 6
https://arxiv.org/abs/1909.00437
多语言翻译研究 - 论文 7
https://arxiv.org/abs/1909.08478
增加单个神经网络可学习的语言数量
https://arxiv.org/abs/1903.00089
《大规模多语言神经机器翻译现状：发现与挑战》
https://arxiv.org/pdf/1907.05019.pdf
NMT 领域的巨大挑战
https://www.aclweb.org/anthology/W17-3204/
已得到证明
https://www.aclweb.org/anthology/N16-1101/
表征容量
http://www.deeplearningbook.org/contents/ml.html
语法相似的语言
https://www.britannica.com/science/linguistics/Language-classification
利用这些相似性
https://arxiv.org/abs/1808.04189
长期直觉
https://arxiv.org/abs/1802.00273
更好的学习
https://arxiv.org/pdf/1909.06434.pdf
容量控制
https://arxiv.org/abs/1904.04971
研究
https://arxiv.org/abs/1808.07561
Transformer
https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
深度与宽度之间的权衡
https://ai.googleblog.com/2016/06/wide-deep-learning-better-together-with.html
Sparsely-Gated Mixture of Experts
https://arxiv.org/abs/1701.06538