150亿参数大杀器！Facebook开源机器翻译新模型，同传人员或失业

会员服务 ·

150亿参数大杀器！Facebook开源机器翻译新模型，同传人员或失业

2020 年 10 月 20 日 新智元

新智元报道

来源：Facebook

编辑：QJP

【新智元导读】Facebook 今日开源了一个多语种机器翻译模型「M2M-100」，这是首个不依赖英语数据就能翻译100种语言的模型，比如直接从僧伽罗语翻译成爪哇语。这种单一多语言模型与传统的双语模型性能相当，同时比以英语为中心的多语模型BLEU提高了10个点。

当把中文翻译成法文时，以前最好的多语种模型的方式是把中文翻译成英文，把英文翻译成法文，因为英语的训练数据是最多的。

而Fac ebook研究院的模型直接根据汉语到法语的数据进行训练，以便更好地保存语义。

在评估机器翻译广泛使用的 BLEU 指标上，它比以英语为中心的系统性能高出10个百分点。

M2M-100共接受了2200种「语言对」的训练，比以往以英语为中心的最优的多语言模型多了10倍。 部署 M2M-100将提高数十亿人的翻译质量，尤其是对那些语言资源匮乏的人。

这个新模型是Facebook AI研究院多年来在机器翻译方面的基础工作的新里程碑。

Facebook还分享了如何为100种语言构建一个更加多样化的机器翻译训练数据集和模型的细节如模型、训练和评估的设置等，以帮助其他研究人员复制和推进多语言模型进一步发展。

典型的机器翻译系统需要为每种语言和每个任务建立单独的AI模型，但是这种方法在 Facebook 上并不能有效地扩展。

在 Facebook 上，人们可以通过数十亿条帖子以160多种语言发布内容。先进的多语言系统可以同时处理多种语言，但是依靠英语数据来弥补源语言和目标语言之间的差距会降低准确性。

因此Facebook需要一个多语种机器翻译(MMT)模型，可以翻译任何语言，以更好地服务于社区，因为其中近三分之二使用的语言不是英语。

研究人员使用一种全新的挖掘策略来创建翻译数据，建立了第一个真正的「多对多」数据集，包括100种语言的75亿个句子。

同时使用了几种缩放技术来建立一个包含150亿个参数的通用模型，该模型从相关语言中获取信息，并反映了更加多样化的语言和词法、句法等。

挖掘数以亿计的句子，寻找数以千计的语言方向

构建多对多 MMT 模型的最大障碍之一是为不涉及英语的任意翻译方向准备大量高质量的句子对(也称为平行句)。因为找到中文到英文，英文到法文的翻译比找到法文到中文的翻译要容易得多。

此外，随着我们支持的语言数量的增加，训练所需的数据量平方级增长。 例如，如果我们需要每个方向的10M 句子对，那么我们需要挖掘10种语言的1B 句子对和100种语言的100B 句子对。

作为这项工作的一部分，Facebook创建了一个新的 LASER 2.0和改进的 fastText 语言标识，它提高了挖掘的质量，包括开源的训练和评估脚本。使用的所有的数据挖掘资源都利用了公开可用的数据，并且都是开源的。

即使使用了像 LASER 2.0这样的底层技术，为任意对100种不同语言(或4450种可能的语言对)挖掘大规模训练数据也是需要大量算力的。

为了使这种规模的数据挖掘更易于处理，Facebook首先关注具有最多翻译请求的语言。

它们优先使用了最高质量的数据和最大数据量的数据挖掘方向，并且避免了需要少量翻译的方向，如：冰岛语-尼泊尔语或者僧伽罗语-爪哇语。

接下来，Facebook介绍了一种新的「bridge mining」策略，在这种策略中，根据语言分类、地理和文化相似性将语言分为14个「语言组」。

这样做是因为生活在使用同一种语言的国家的人们倾向于更经常地交流，并且会从高质量的翻译中受益。

例如，一个语言组包括在印度说的语言，如孟加拉语、印度语、马拉地语、尼泊尔语、泰米尔语和乌尔都语。研究人员系统地挖掘了每个群体中所有可能的语言对。

为了连接不同群体的语言，Facebook的人员确定了少量的「桥接语言」，它们通常是每个群体的一到三种主要语言。

在上面的例子中，印度语、孟加拉语和泰米尔语将成为21印度-雅利安语支的桥梁语言。然后为这些桥接语言的所有可能的组合挖掘并行训练数据。

使用这种技术，训练数据集最终得到了75亿个平行句子的数据，相当于2200个方向。

为了补充低资源语言和低翻译质量的并行数据，Facebook还使用了流行的回译方法（back-translation）。

总的来说，通过「桥接策略和反向翻译」相结合，比单独挖掘数据的训练方式提高了1.7 BLEU。

同时研究人员还发现了零样本学习（zero-shot）的设置。

例如，如果一个模型使用法语-英语和德语-瑞典语训练，就可以在法语和瑞典语之间进行zero-shot 翻译。在多对多模型在非英语方向之间进行翻译的情况下，它比以英语为中心的多语言模式要好得多。

以高速度和高质量将机器翻译模型扩展到150亿参数

多语言翻译面临的一个挑战是，单一模型必须捕获多种不同语言和不同文字的信息。为了解决这个问题，扩展模型的容量并添加特定语言的参数有显著的作用。

扩展模型大小对于资源丰富的语言对特别有帮助，因为它们拥有最多的数据来训练更大的模型容量。

当扩展模型大小到120亿个参数时，所有语言方向的 BLEU 平均提高了1.2个点。 扩展模型的大小和特定语言的稀疏参数(32亿)的结合使我们能够创建一个更好的拥有150亿参数的模型。

为了增加模型的大小，Facebook还增加了 Transformer 网络中的层数以及每个层的宽度。结果发现，大型模型收敛速度快，训练数据效率高。

值得注意的是，这个多对多系统是首个利用「Fairscale」的系统，Fairscale 是专门为支持Pipeline和Tensor并行化而设计的新 PyTorch 库。

作为这项工作的一部分，我们已经看到在预训练语言模型、微调和自监督方面取得了令人难以置信的快速进展。

多年来，AI研究人员一直致力于建立一个通用模型，能够理解不同任务中的所有语言。一个支持所有语言、方言的单一模型将更好地为更多的人服务，使翻译结果保持最新，并为数十亿人创造平等的新体验，这项工作使得更加接近这个目标。

项目地址：

https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

重磅！达摩院2021十大科技趋势

专知会员服务

52+阅读 · 2020年12月28日

【Facebook AI】无监督机器翻译，336页ppt，Unsupervised Machine Translation

专知会员服务

19+阅读 · 2020年11月17日

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

神经机器翻译前沿综述

专知会员服务

28+阅读 · 2020年9月9日

【Contextual Embedding】什么时候上下文嵌入值得使用?

专知会员服务

16+阅读 · 2020年8月2日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【干货书】机器学习，408页pdf，开发人员和技术专业人员的动手实践手册

专知会员服务

218+阅读 · 2020年5月7日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

机器学习算法与Python学习

8+阅读 · 2019年10月27日

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

机器之心

4+阅读 · 2019年10月23日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

谷歌开源语义图像分割模型DeepLab-v3+ | 附代码

量子位

3+阅读 · 2018年3月13日

用于神经网络机器翻译的全并行文本生成

专知

5+阅读 · 2018年1月3日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

专知

5+阅读 · 2017年12月23日

谷歌神经网络机器翻译NMT：人人可利用TensorFlow快速建立翻译模型（附教程）

全球人工智能

7+阅读 · 2017年7月14日

Bias in Zipf's Law Estimators

Arxiv

0+阅读 · 2021年1月26日

Probability distributions for analog-to-target distances

Arxiv

0+阅读 · 2021年1月26日

ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders

Arxiv

0+阅读 · 2021年1月25日

Connections between Fairness Criteria and Efficiency for Allocating Indivisible Chores

Arxiv

0+阅读 · 2021年1月22日

Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

Arxiv

3+阅读 · 2019年9月12日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

Direct Output Connection for a High-Rank Language Model

Arxiv

5+阅读 · 2018年8月31日

Japanese Predicate Conjugation for Neural Machine Translation

Arxiv

3+阅读 · 2018年5月25日

Phrase Table as Recommendation Memory for Neural Machine Translation

Arxiv

3+阅读 · 2018年5月25日

Near Human-Level Performance in Grammatical Error Correction with Hybrid Machine Translation

Arxiv

5+阅读 · 2018年4月16日

VIP会员