机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料 - 专知

会员服务 ·

0

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

2017 年 12 月 24 日 机器学习研究会 专知内容组（编）

【导读】基于深度学习的机器翻译往往需要数量非常庞大的平行语料，这一前提使得当前最先进的技术无法被有效地用于那些平行语料比较匮乏的语言之间。为了解决这一问题，Facebook提出了一种不需要任何平行语料的机器翻译模型。该模型的基本思想是, 通过将来自不同语言的句子映射到同一个隐空间下来进行句子翻译。近日，Facebook开源了这一翻译模型MUSE: Multilingual Unsupervised and Supervised Embeddings，并提供预训练好的30种语言的词向量和110个大规模双语词典。

▌主要流程

1、先用单语语料训练两个词向量空间，然后用无监督方法对齐这两个空间

2. 对齐 encoder 语义空间，两种语言各一个 decoder；用 denoising auto-encoder 训练单语语言模型，用 back-translation 造伪平行语料优化似然函数

Facebook MUSE: a Python library for multilingual word embeddings now open sourced!

转自：专知

完整内容请点击“阅读原文”

登录查看更多

12

相关内容

机器翻译

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

机器翻译深度学习最新综述

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

跨语言版BERT：Facebook提出跨语言预训练模型XLM

跨语言版BERT：Facebook提出跨语言预训练模型XLM

机器之心

4+阅读 · 2019年2月6日

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

新智元

8+阅读 · 2019年1月31日

最流行的6大开源自然语言处理库对比

最流行的6大开源自然语言处理库对比

大数据技术

8+阅读 · 2018年8月14日

机器翻译不可不知的 Seq2Seq 模型

机器翻译不可不知的 Seq2Seq 模型

AI研习社

4+阅读 · 2018年5月24日

没有数据也能翻译？一文读懂「无监督」机器翻译

没有数据也能翻译？一文读懂「无监督」机器翻译

人工智能学家

3+阅读 · 2018年1月7日

快讯 | Facebook开源语音识别工具包wav2letter

快讯 | Facebook开源语音识别工具包wav2letter

大数据文摘

6+阅读 · 2018年1月2日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

数盟

9+阅读 · 2017年8月18日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Unsupervised Multilingual Word Embeddings

Arxiv

4+阅读 · 2018年9月6日

A Survey on Deep Transfer Learning

A Survey on Deep Transfer Learning

Arxiv

11+阅读 · 2018年8月6日

Supervised classification of Dermatological diseases by Deep learning

Supervised classification of Dermatological diseases by Deep learning

Arxiv

4+阅读 · 2018年7月31日

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

4+阅读 · 2018年4月20日

Unsupervised Neural Machine Translation

Arxiv

6+阅读 · 2018年2月26日

SpectralNet: Spectral Clustering using Deep Neural Networks

Arxiv

11+阅读 · 2018年1月10日

VIP会员

相关主题

无监督机器翻译

相关VIP内容

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

机器翻译深度学习最新综述

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

跨语言版BERT：Facebook提出跨语言预训练模型XLM

跨语言版BERT：Facebook提出跨语言预训练模型XLM

机器之心

4+阅读 · 2019年2月6日

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

请收好这份NLP热门词汇解读：预训练、Transformer、无监督机器翻译

新智元

8+阅读 · 2019年1月31日

最流行的6大开源自然语言处理库对比

最流行的6大开源自然语言处理库对比

大数据技术

8+阅读 · 2018年8月14日

机器翻译不可不知的 Seq2Seq 模型

机器翻译不可不知的 Seq2Seq 模型

AI研习社

4+阅读 · 2018年5月24日

没有数据也能翻译？一文读懂「无监督」机器翻译

没有数据也能翻译？一文读懂「无监督」机器翻译

人工智能学家

3+阅读 · 2018年1月7日

快讯 | Facebook开源语音识别工具包wav2letter

快讯 | Facebook开源语音识别工具包wav2letter

大数据文摘

6+阅读 · 2018年1月2日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

数盟

9+阅读 · 2017年8月18日

相关论文

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Unsupervised Multilingual Word Embeddings

Arxiv

4+阅读 · 2018年9月6日

A Survey on Deep Transfer Learning

A Survey on Deep Transfer Learning

Arxiv

11+阅读 · 2018年8月6日

Supervised classification of Dermatological diseases by Deep learning

Supervised classification of Dermatological diseases by Deep learning

Arxiv

4+阅读 · 2018年7月31日

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

4+阅读 · 2018年4月20日

Unsupervised Neural Machine Translation

Arxiv

6+阅读 · 2018年2月26日

SpectralNet: Spectral Clustering using Deep Neural Networks

Arxiv

11+阅读 · 2018年1月10日

大家都在搜

CMU博士论文

无人机集群

软件无线电

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员