一个模型翻译103 种语言！谷歌500亿参数M4模型突破多语言神经翻译极限

会员服务 ·

一个模型翻译103 种语言！谷歌500亿参数M4模型突破多语言神经翻译极限

2019 年 10 月 12 日 新智元

新智元报道

来源：GoogleAI

编辑：肖琴

【新智元导读】谷歌最新研究提出一种用于大规模多语言的大规模神经翻译方法，针对100+种语言，超过500亿参数训练一个NMT模型，突破了多语言NMT研究的极限。>>> 如何看待这一突破，来新智元 AI 朋友圈和AI大咖一起讨论吧～

在过去的几年里，机器翻译(MT)系统的质量有了巨大的进步，神经机器翻译(NMT)的发展打破了世界各地的语言障碍。

然而，NMT的成功很大程度上归功于大量的监督训练数据。但是，对于那些缺乏数据、甚至没有数据的语言呢？ 多语言NMT(Multilingual NMT) 是一种潜在的补救方法，它带有一种归纳性偏见，即“从一种语言学习的信号应该有利于提高翻译到其他语言的质量”。

多语言机器翻译使用一个翻译模型来处理多种语言。针对数据匮乏的语言的多语言训练的成功已经证明这种方法用于自动语音识别和文本语音转换系统的有效性，此前的许多研究也证明了它在多语言翻译中的有效性。

我们之前研究了在单个神经网络中扩大可学习语言的数量，同时控制每种语言的训练数据量的影响。但是一旦所有的约束都被移除，会发生什么呢？尽管不同语言之间在数据大小、文字、复杂性和域等方面存在巨大差异，但我们能否使用所有可用的数据来训练一个单一的模型呢?

谷歌在论文“大规模多语言神经机器翻译：发现和挑战”及后续论文中，通过在覆盖 100+种语言的超过250亿句子对、超过500亿参数 上训练一个NMT模型， 突破了多语言NMT研究的极限 。

论文地址：

https://arxiv.org/pdf/1907.05019.pdf

其结果是一种 用于大规模多语言的大规模神经翻译方法(massively multilingual, massive neural machine translation，简称M4) ，该方法在低资源语言和高资源语言上都表现出了巨大的质量提升，可以轻松适应各个领域/语言，同时在跨语言下游迁移任务上表现出很高的效率。

如何评价谷歌的这一神经机器翻译突破？欢迎来新智元AI朋友圈参与讨论~

大规模多语言机器翻译

虽然对于NMT来说，跨语言对的数据偏斜是一个巨大的挑战，但它也为研究迁移(transfer)创造了一个理想的场景，在这个场景中，通过对一种语言的训练获得的见解可以应用于其他语言的翻译。在分布的一端，有像法语、德语和西班牙语这样的高资源语言，它们有数十亿个并行示例，而在另一端，像约鲁巴语、信德语和夏威夷语这样的低资源语言的监督数据只有几万个。

在所有语言对上的数据分布和在这些特定语言对上训练的双语baseline的相对翻译质量(BLEU分数)。

当使用所有可用数据(来自103种语言的250亿+个示例)进行训练，我们观察到向低资源语言的强有力的正迁移(positive transfer)，这极大地提高了分布末端的30多种语言的翻译质量，平均提高了5个点。

考虑比较是在双语基线(即仅在特定语言对上训练的模型)和具有与单个双语模型相似的表示能力的单个多语言模型之间进行的，翻译质量提高可以预知，但结果令人鼓舞。这一发现表明，大规模多语言模型在泛化方面很有效，并且能够捕获大量语言之间的代表性相似性。

单个大规模多语言模型与针对103种语言对中的每一种都进行训练的双语基线模型的翻译质量比较。

谷歌在EMNLP 19的论文“Investigating Multilingual NMT Representations at Scale”中，比较了不同语言的多语言模型的表示形式。研究人员发现，多语言模型无需外部约束即可学习相似语言的共享表示，从而验证了利用这些相似性的长期直觉和经验结果。

在论文“Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation”中，谷歌进一步证明了这些学习表示在下游任务的跨语言迁移中的有效性。

基于表示相似性，所有103种语言编码表示聚类的可视化。

构建大规模神经网络

随着模型中低资源语言数量的增加，高资源语言翻译的质量开始下降。这种回归是在多任务设置中被发现的，这是由于任务间的竞争和转移的单向性(即，从高资源到低资源)引起的。在研究更好的学习和容量控制算法来减少这种负迁移的同时，我们还通过增加模型参数的数量来扩大神经网络的表示能力，从而提高高资源语言的翻译质量。

为了扩大神经网络的容量，可以做出许多设计选择，包括添加更多的层或使隐藏的表示更宽。我们继续研究训练更深的网络，我们使用GPipe来训练超过60亿参数的128层Transformers模型。增加模型容量可以显著提高所有语言的性能，平均提高了5个点。我们还研究了非常深的网络的其他特性，包括depth-width权衡、可训练性挑战以及将Transformer扩展到1500层以上、840亿个参数。

虽然扩大深度是增加模型容量的一种方法，但是探索能够利用问题的多任务性质的架构是一个非常可行的补充方法。通过对Transformer架构进行修改，我们大幅度地扩展了模型容量，使我们能够成功训练和传递500亿个参数，从而进一步提高了整体的翻译质量。