成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
一个模型翻译103 种语言!谷歌500亿参数M4模型突破多语言神经翻译极限
2019 年 10 月 12 日
新智元
新智元报道
来源:GoogleAI
编辑:肖琴
【新智元导读】
谷歌最新研究提出一种用于大规模多语言的大规模神经翻译方法,针对
100+种语言,超过500亿参数训练一个NMT模型,突破了多语言NMT研究的极限。
>
>> 如何看待这一突破,来
新智元 AI 朋友圈
和AI大咖一起讨论吧~
在过去的几年里,机器翻译(MT)系统的质量有了巨大的进步,神经机器翻译(NMT)的发展打破了世界各地的语言障碍。
然而,NMT的成功很大程度上归功于大量的监督训练数据。但是,对于那些缺乏数据、甚至没有数据的语言呢?
多语言NMT(Multilingual NMT)
是一种潜在的补救方法,它带有一种归纳性偏见,即“从一种语言学习的信号应该有利于提高翻译到其他语言的质量”。
多语言机器翻译
使用一个翻译模型来处理多种语言
。针对数据匮乏的语言的多语言训练的成功已经证明这种方法用于自动语音识别和文本语音转换系统的有效性,此前的许多研究也证明了它在多语言翻译中的有效性。
我们之前研究了在单个神经网络中扩大可学习语言的数量,同时控制每种语言的训练数据量的影响。但是一旦所有的约束都被移除,会发生什么呢?尽管不同语言之间在数据大小、文字、复杂性和域等方面存在巨大差异,但我们能否使用所有可用的数据来训练一个单一的模型呢?
谷歌在论文“大规模多语言神经机器翻译:发现和挑战”及后续论文中,通过在覆盖
100+种语言的
超过250亿句子对、超过500亿参数
上训练一个NMT模型,
突破了多语言NMT研究的极限
。
论文地址:
https://arxiv.org/pdf/1907.05019.pdf
其结果是一种
用于大规模多语言的大规模神经翻译方法(massively multilingual, massive neural machine translation,简称M4)
,该方法在低资源语言和高资源语言上都表现出了巨大的质量提升,可以轻松适应各个领域/语言,同时在跨语言下游迁移任务上表现出很高的效率。
如何评价谷歌的这一神经机器翻译突破?欢迎来新智元AI朋友圈参与讨论~
大规模多语言机器翻译
虽然对于NMT来说,跨语言对的数据偏斜是一个巨大的挑战,但它也为研究迁移(transfer)创造了一个理想的场景,在这个场景中,通过对一种语言的训练获得的见解可以应用于其他语言的翻译。在分布的一端,有像法语、德语和西班牙语这样的高资源语言,它们有数十亿个并行示例,而在另一端,像约鲁巴语、信德语和夏威夷语这样的低资源语言的监督数据只有几万个。
在所有语言对上的数据分布和在这些特定语言对上训练的双语baseline的相对翻译质量(BLEU分数)。
当使用所有可用数据(来自103种语言的250亿+个示例)进行训练,我们观察到向低资源语言的强有力的
正迁移
(positive transfer),
这极大地提高了分布末端的30多种语言的翻译质量,平均提高了5个点。
考虑比较是在双语基线(即仅在特定语言对上训练的模型)和具有与单个双语模型相似的表示能力的单个多语言模型之间进行的,翻译质量提高可以预知,但结果令人鼓舞。这一发现表明,
大规模多语言模型在泛化方面很有效,并且能够捕获大量语言之间的代表性相似性
。
单个大规模多语言模型与针对103种语言对中的每一种都进行训练的双语基线模型的翻译质量比较。
谷歌在EMNLP 19的论文“
Investigating Multilingual NMT Representations at Scale
”中,比较了不同语言的多语言模型的表示形式。研究人员发现,多语言模型无需外部约束即可学习相似语言的共享表示,从而验证了利用这些相似性的长期直觉和经验结果。
在论文“
Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation
”中,谷歌进一步证明了这些学习表示在下游任务的跨语言迁移中的有效性。
基于表示相似性,所有103种语言编码表示聚类的可视化。
构建大规模神经网络
随着模型中低资源语言数量的增加,高资源语言翻译的质量开始下降。这种回归是在多任务设置中被发现的,这是由于任务间的竞争和转移的单向性(即,从高资源到低资源)引起的。在研究更好的学习和容量控制算法来减少这种负迁移的同时,我们还通过增加模型参数的数量来扩大神经网络的表示能力,从而提高高资源语言的翻译质量。
为了扩大神经网络的容量,可以做出许多设计选择,包括添加更多的层或使隐藏的表示更宽。我们继续研究训练更深的网络,我们使用GPipe来训练超过60亿参数的128层Transformers模型。
增加模型容量可以显著提高所有语言的性能,平均提高了5个点。
我们还研究了非常深的网络的其他特性,包括depth-width权衡、可训练性挑战以及将Transformer扩展到1500层以上、840亿个参数。
虽然扩大深度是增加模型容量的一种方法,但是探索
能够利用问题的多任务性质的架构
是一个非常可行的补充方法。通过对Transformer架构进行修改,我们大幅度地扩展了模型容量,使我们能够成功训练和传递500亿个参数,从而进一步提高了整体的翻译质量。
与103个单独的双语基线模型相比,当我们增加容量(参数数量)时,单个大规模多语言模型的翻译质量提高了。
大规模多语言 NMT方法:M4变得实用
对于每种语言,领域或任务,以极高的计算成本来训练大型模型是很低效的。相反,我们提出的大规模多语言 NMT方法,通过使用容量可调的层使新模型适应特定的语言或领域,而不改变原来的模型,从而使这些模型更加实用。
到本世纪末,全世界当前使用的7000种语言中至少有一半将不复存在。多语言机器翻译能帮上忙吗?我们将M4方法视为服务下1000种语言的垫脚石。从这种多语言模型开始,可以很容易地扩展到新的语言、域和下游任务,即使并行数据不可用。
确实,通往通用机器翻译的道路很艰难,许多有前途的解决方案似乎都是跨学科的。这使得多语言NMT成为机器学习实践者和理论家的一个测试平台,在上面探索多任务学习、元学习、深度网络的训练动态等等。我们还有很长的路要走。
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
NMT
关注
0
【ICML2020-伯克利】反直觉!大模型重压缩提升Transformer的训练和推理效率,47页ppt
专知会员服务
69+阅读 · 2020年7月1日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
专知会员服务
36+阅读 · 2020年6月16日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
【综述】面向视觉智能的知识蒸馏和Student-Teacher方法,附37页pdf下载
专知会员服务
67+阅读 · 2020年4月16日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
13+阅读 · 2020年3月27日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
【ICLR2020】理解非自回归机器翻译中的知识蒸馏(Understanding Knowledge Distillation in Non-autoregressive Machine Translation)
专知会员服务
10+阅读 · 2019年12月28日
【剑桥大学】神经机器翻译综述论文,Neural Machine Translation: A Review,附88页pdf
专知会员服务
35+阅读 · 2019年12月4日
谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!
机器学习算法与Python学习
8+阅读 · 2019年10月27日
已删除
将门创投
4+阅读 · 2019年10月11日
Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准
AI科技评论
10+阅读 · 2019年9月17日
谷歌NLP新方法:无需翻译,质量优于无监督翻译模型
新智元
7+阅读 · 2019年6月24日
翻译|同声传译被攻陷!谷歌发布Translatotron直接语音翻译系统
机器人大讲堂
4+阅读 · 2019年5月17日
逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了
量子位
18+阅读 · 2019年5月4日
资源 | FAIR & NYU开发XNLI语料库:15种语言(含低资源语言)
机器之心
3+阅读 · 2018年11月12日
谷歌最强NLP模型BERT官方中文版来了!多语言模型支持100种语言
新智元
5+阅读 · 2018年11月6日
干货 | 揭开多语言词嵌入模型的神秘面纱
AI科技评论
5+阅读 · 2018年4月3日
谷歌神经网络机器翻译NMT:人人可利用TensorFlow快速建立翻译模型(附教程)
全球人工智能
7+阅读 · 2017年7月14日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Deep Graph Convolutional Encoders for Structured Data to Text Generation
Arxiv
6+阅读 · 2018年10月23日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
How Do Source-side Monolingual Word Embeddings Impact Neural Machine Translation?
Arxiv
5+阅读 · 2018年6月5日
Scaling Neural Machine Translation
Arxiv
3+阅读 · 2018年6月1日
Near Human-Level Performance in Grammatical Error Correction with Hybrid Machine Translation
Arxiv
5+阅读 · 2018年4月16日
Unsupervised Machine Translation Using Monolingual Corpora Only
Arxiv
5+阅读 · 2018年4月13日
Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets
Arxiv
3+阅读 · 2018年4月8日
XNMT: The eXtensible Neural Machine Translation Toolkit
Arxiv
3+阅读 · 2018年3月1日
Unsupervised Neural Machine Translation
Arxiv
6+阅读 · 2018年2月26日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
NMT
机器翻译
多语言神经机器翻译
神经机器翻译
多语言机器翻译
低资源
相关VIP内容
【ICML2020-伯克利】反直觉!大模型重压缩提升Transformer的训练和推理效率,47页ppt
专知会员服务
69+阅读 · 2020年7月1日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
专知会员服务
36+阅读 · 2020年6月16日
1750亿参数!GPT-3来了!31位作者,OpenAI发布小样本学习器语言模型
专知会员服务
72+阅读 · 2020年5月30日
【综述】面向视觉智能的知识蒸馏和Student-Teacher方法,附37页pdf下载
专知会员服务
67+阅读 · 2020年4月16日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
13+阅读 · 2020年3月27日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!
专知会员服务
40+阅读 · 2020年2月26日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
【ICLR2020】理解非自回归机器翻译中的知识蒸馏(Understanding Knowledge Distillation in Non-autoregressive Machine Translation)
专知会员服务
10+阅读 · 2019年12月28日
【剑桥大学】神经机器翻译综述论文,Neural Machine Translation: A Review,附88页pdf
专知会员服务
35+阅读 · 2019年12月4日
热门VIP内容
开通专知VIP会员 享更多权益服务
《优化联合作战准备:日本视角》最新21页
《基于嵌入式导弹系统的自主防空系统以挫败巡航威胁的定量论证》90页
乌克兰首次完全依靠UGV 和 FPV 无人机全自动攻击俄罗斯部队
《中高度长航时遥控无人机自动定位和跟踪》190页
相关资讯
谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!
机器学习算法与Python学习
8+阅读 · 2019年10月27日
已删除
将门创投
4+阅读 · 2019年10月11日
Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准
AI科技评论
10+阅读 · 2019年9月17日
谷歌NLP新方法:无需翻译,质量优于无监督翻译模型
新智元
7+阅读 · 2019年6月24日
翻译|同声传译被攻陷!谷歌发布Translatotron直接语音翻译系统
机器人大讲堂
4+阅读 · 2019年5月17日
逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了
量子位
18+阅读 · 2019年5月4日
资源 | FAIR & NYU开发XNLI语料库:15种语言(含低资源语言)
机器之心
3+阅读 · 2018年11月12日
谷歌最强NLP模型BERT官方中文版来了!多语言模型支持100种语言
新智元
5+阅读 · 2018年11月6日
干货 | 揭开多语言词嵌入模型的神秘面纱
AI科技评论
5+阅读 · 2018年4月3日
谷歌神经网络机器翻译NMT:人人可利用TensorFlow快速建立翻译模型(附教程)
全球人工智能
7+阅读 · 2017年7月14日
相关论文
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Deep Graph Convolutional Encoders for Structured Data to Text Generation
Arxiv
6+阅读 · 2018年10月23日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
How Do Source-side Monolingual Word Embeddings Impact Neural Machine Translation?
Arxiv
5+阅读 · 2018年6月5日
Scaling Neural Machine Translation
Arxiv
3+阅读 · 2018年6月1日
Near Human-Level Performance in Grammatical Error Correction with Hybrid Machine Translation
Arxiv
5+阅读 · 2018年4月16日
Unsupervised Machine Translation Using Monolingual Corpora Only
Arxiv
5+阅读 · 2018年4月13日
Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets
Arxiv
3+阅读 · 2018年4月8日
XNMT: The eXtensible Neural Machine Translation Toolkit
Arxiv
3+阅读 · 2018年3月1日
Unsupervised Neural Machine Translation
Arxiv
6+阅读 · 2018年2月26日
大家都在搜
无人艇
洛克菲勒
大型语言模型
CMU博士论文
技术报告
自主可控
palantir
版面分析
3D建模
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top