机器翻译新时代:Facebook 开源无监督机器翻译模型和大规模训练语料

2017 年 12 月 24 日 机器学习研究会 专知内容组(编)

【导读】基于深度学习的机器翻译往往需要数量非常庞大的平行语料,这一前提使得当前最先进的技术无法被有效地用于那些平行语料比较匮乏的语言之间。为了解决这一问题,Facebook提出了一种不需要任何平行语料的机器翻译模型。该模型的基本思想是通过将来自不同语言的句子映射到同一个隐空间下来进行句子翻译。近日,Facebook开源了这一翻译模型MUSE: Multilingual Unsupervised and Supervised Embeddings,并提供预训练好的30种语言的词向量和110个大规模双语词典。


  

主要流程




1、先用单语语料训练两个词向量空间,然后用无监督方法对齐这两个空间

2. 对齐 encoder 语义空间,两种语言各一个 decoder;用 denoising auto-encoder 训练单语语言模型,用 back-translation 造伪平行语料优化似然函数

 

 

 

Facebook MUSE: a Python library for multilingual word embeddings now open sourced!


转自:专知


完整内容请点击“阅读原文”

登录查看更多
11

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
214+阅读 · 2020年4月26日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
57+阅读 · 2020年3月6日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
机器翻译深度学习最新综述
专知会员服务
99+阅读 · 2020年2月20日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
跨语言版BERT:Facebook提出跨语言预训练模型XLM
机器之心
4+阅读 · 2019年2月6日
最流行的6大开源自然语言处理库对比
大数据技术
8+阅读 · 2018年8月14日
机器翻译不可不知的 Seq2Seq 模型
AI研习社
4+阅读 · 2018年5月24日
没有数据也能翻译?一文读懂「无监督」机器翻译
人工智能学家
3+阅读 · 2018年1月7日
快讯 | Facebook开源语音识别工具包wav2letter
大数据文摘
6+阅读 · 2018年1月2日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
4+阅读 · 2018年9月6日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
相关VIP内容
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
214+阅读 · 2020年4月26日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
57+阅读 · 2020年3月6日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
机器翻译深度学习最新综述
专知会员服务
99+阅读 · 2020年2月20日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
相关论文
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
4+阅读 · 2018年9月6日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
6+阅读 · 2018年2月26日
Top
微信扫码咨询专知VIP会员