机器翻译做到头了？Meta开源NLLB翻译模型，支持200种语言互译

会员服务 ·

机器翻译做到头了？Meta开源NLLB翻译模型，支持200种语言互译

2022 年 7 月 18 日 夕小瑶的卖萌屋

文 | Alex(凹非寺)
源 | 量子位

这个翻译模型，不仅支持200+语言之间任意两两互译，还是开源的。Meta AI在发布开源大型预训练模型OPT之后，再次发布最新成果NLLB。

NLLB的全称为No Language Left Behind，如果套用某著名电影，可以翻译成“一个语言都不能少”。

这其中，中文分为简体繁体和粤语三种，而除了中英法日语等常用语种外，还包括了许多小众语言。

由于这些语言之间都可以两两互译，所以咱们能用NLLB把阿斯图里亚语、卢甘达语、乌尔都语等地球上的小众语言直接译成中文了。

一位用粤语的靓仔看到这里直接喜大普奔。

要知道，此前的众多语言模型，要么不支持这么多种语言，要么不能直接完成小众语言之间的两两翻译。

有了NLLB，世界各地的人都有机会以自己的母语访问和分享网络内容；并且无论他们的语言偏好如何，都可以与他人在任意地方沟通。

Meta称，他们计划先将这个技术应用于Facebook和Instagram，以提升这些平台上小众语言的计算机翻译水平。

同时，这也是他们元宇宙计划的一部分。而这项成果正式开源的消息，也受到广受好评。

除了AI业内关心他们如何支持语料稀缺的冷门语言，以及如何在BLEU基准测试上提高7个点以外。也有来自西非的网友认为，语言障碍正是全球互联网用户数量进一步增长的关键。

在Hacker News论坛上，大家也对这个AI议论纷纷。一个前端开发者说，自己的母语就是非常小众的那种，仅有约一百万人使用。

这位开发者此前从未见过对这种语言好用的AI翻译软件，而NLLB给他带来了希望。

不过他认为，连著名的谷歌AI在处理“德-英-德”这样语料丰富的语言翻译时，都常常会出问题，所以他暂且对这个声称能翻译好小众语言的新模型持保留态度。

有网友给这位开发者支招儿，告诉他Meta开放了有支持翻译的儿童书籍，可以去看看翻译效果。

还有人补充道，许多小众语言有许多不同的自然变体，更偏于口语化，而没有特定书面化标准，可以用多种文字书写。所以，如何对小众语言进行标准化是个棘手的问题。

怎么支持语料少的语言

这个掌握了200多种语言的AI模型是怎么训练的？

据Meta AI介绍，他们的AI研究人员主要通过3个方面来解决一些语言语料少的问题。

其一是为语料少的语言自动构建高质量的数据集。研究者建立了一个多对多的多语言数据集Flores-200。专业的真人翻译员和审稿人采用统一的标准，来保质保量地建立这个数据集。

首先，译员们翻译Flores-200的全部句子，并检查；然后，独立审查员小组开始审查翻译质量，根据他们的评估将一些译文送去进行后期编辑。

如果质量评估表明，质量在90%以上，则认为该语言可以被纳入Flores-200中。

最终，Flores-200中包含了842篇不同文章的翻译，共3001个句子。

其二，是对200种语言建模：研究者开发了一个语言识别系统LID（language identification systems），标记出某段文字是用哪种语言写的。

用监督方式训练的LID模型在看似流畅的句子上，可能难以识别处不正确语法和不完整的字符串。

此外，LID很容易学习到没有意义的相关性。所以，在这个LID开发的不同阶段，工程师们都和语言学家们保持着紧密合作来尽量规避这些问题。

为了对小众语言进行较好的建模，研究者开发了一种“学生-教师挖掘法” （Student-Teacher Mining）该方法的内容是：让一个大规模的多语言句子编码器的教师模型，与几个语料少的学生模型相互学习整合。

这样能够在不和多语料语言争夺容量的情况下，丰富小众语言的训练数据，保持了多语言嵌入空间的兼容性，避免从头开始重新训练整个模型。

其三，是将一个人工翻译的评估基准：FLORES的覆盖范围扩大2倍，来评估每一种语言的翻译质量。虽然自动评分是推动该研究的重要工具，但人工评价对于翻译质量的评估也是必不可少的。

通过整合AI自动评分和人工评估，能够广泛量化翻译水平，便于提升整理的翻译质量。

为了让更多程序员和工程师们能够使用或完善NLLB，Meta开放了所有的评估基准（FLORES-200、NLLB-MD、Toxicity-200）、LID模型和训练代码，以及最终的NLLB-200模型和其小型提炼版本等。

Meta AI已将这些内容开源，就在fariseq仓库里面，感兴趣的小伙伴们可以去看看。

论文地址：
https://research.facebook.com/publications/no-language-left-behind/
开源地址：
https://github.com/facebookresearch/fairseq/tree/nllb

后台回复关键词【入群】

加入卖萌屋NLP、CV、搜广推与求职讨论群

[1]https://ai.facebook.com/research/no-language-left-behind/

[2]https://news.ycombinator.com/item?id=32005942

[3]https://twitter.com/MetaAI/status/1544791067567996935

登录查看更多

相关内容

翻译模型

关注 0

斯坦福大学首个Transformers专题讲座视频放出，NLP、CV和RL无所不包

专知会员服务

47+阅读 · 2022年7月12日

中科院自动化所徐波团队最新《视觉-语言预训练》综述

专知会员服务

67+阅读 · 2022年2月23日

稀缺资源语言神经网络机器翻译研究综述

专知会员服务

27+阅读 · 2020年12月2日

【2020新书】实用实体框架 - 企业应用程序的数据库访问，662页pdf

专知会员服务

37+阅读 · 2020年8月21日

【Manning2020新书】Python工作手册，249页pdf，Python 50个必要练习

专知会员服务

107+阅读 · 2020年7月9日

神经网络与形式语言综述，12页pdf，A Survey of Neural Networks and Formal Languages

专知会员服务

21+阅读 · 2020年6月4日

【Manning新书】现代Java实战，592页pdf

专知会员服务

101+阅读 · 2020年5月22日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

算法与数据结构Python，369页pdf

专知会员服务

165+阅读 · 2020年3月4日

【新书】Python中的经典计算机科学问题，224页PDF

专知会员服务

57+阅读 · 2019年12月31日

Meta这篇语言互译大模型研究，结果对比都是「套路」

机器之心

0+阅读 · 2022年7月31日

200+语言任意互译，新开源的大模型让粤语靓仔直接喜大普奔

量子位

0+阅读 · 2022年7月8日

谷歌为1000+「长尾」语言创建机器翻译系统，Google翻译已支持部分小众语言

机器之心

0+阅读 · 2022年5月25日

扎克伯格曝光Meta的小目标：AI自动生成元宇宙，实时翻译所有语言

机器之心

0+阅读 · 2022年2月24日

WMT 2021冠军来了！重建巴别塔之多语言翻译模型

新智元

0+阅读 · 2022年1月5日

元宇宙中可跨语种交流！Meta 发布新语音模型，支持128种语言无障碍对话

THU数据派

2+阅读 · 2021年11月26日

Meta发布支持128种语言的新语音模型：指向元宇宙跨语种交流，可在线试玩

量子位

1+阅读 · 2021年11月22日

微软翻译突破百种语言和方言大关

微软研究院AI头条

0+阅读 · 2021年10月15日

微软翻译又添新语言 —— 文言文

微软研究院AI头条

0+阅读 · 2021年8月26日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

基于多语用户模型的个性化跨语言信息检索研究

国家自然科学基金

2+阅读 · 2013年12月31日

跨语图像检索中融合视觉信息的多语翻译与集成方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

汉语词法与句法结构的统一分析

国家自然科学基金

0+阅读 · 2012年12月31日

XQuery语言运行时自动程序例化技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向双语教学的新疆少数民族多层次普通话语音库建设及声学分析

国家自然科学基金

0+阅读 · 2012年12月31日

基于树的句法翻译模型关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于儿童语言习得机制的语言接地技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

中文语义依存分析资源构建及分析技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

汉语句法、语义与题元加工及其对第二语言加工的影响

国家自然科学基金

0+阅读 · 2009年12月31日

Examining Large Pre-Trained Language Models for Machine Translation: What You Don't Know About It

Arxiv

0+阅读 · 2022年9月15日

Exploring Code Style Transfer with Neural Networks

Arxiv

0+阅读 · 2022年9月13日

Don't Judge a Language Model by Its Last Layer: Contrastive Learning with Layer-Wise Attention Pooling

Arxiv

0+阅读 · 2022年9月13日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

A Primer in BERTology: What we know about how BERT works

Arxiv

34+阅读 · 2020年2月27日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

An Attentive Survey of Attention Models

Arxiv

19+阅读 · 2019年4月5日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Adaptive Correlation Filters with Long-Term and Short-Term Memory for Object Tracking

Arxiv

11+阅读 · 2018年3月23日

Matching Networks for One Shot Learning

Arxiv

10+阅读 · 2017年12月29日

VIP会员