EMNLP2018 | 基于短语和神经网络的无监督机器翻译系统 - 专知

会员服务 ·

0

EMNLP2018 | 基于短语和神经网络的无监督机器翻译系统

2018 年 11 月 22 日 微信AI

前言

机器翻译系统在某些语言上实现了接近人类的能力，但他的性能依赖大量的平行双语语料，这降低了机器翻译的适用性。本研究探讨了如何在只有大规模单语种语料库的情况下进行机器翻译。本文提出了两个模型，一个基于神经网络和一个基于短语的模型。两个模型都使用了精心设计的参数初始化、语言模型的降噪和基于迭代反向翻译的并行预料生成。这些模型优于引用文献中的方法，而且更简单、具有更少的超参数。在广泛使用的WMT'14 English - French 和WMT'16German - English 基准测试中，分别获得了28.1 和25.2 BLEU 点（在不使用平行语料的情况下），比当前最好的方法高出了11 个BLEU 点。在资源较少的语言如English-Urdu 和 English-Romanian 中，甚至比利用短缺的bitexts 的半监督和监督方法要好。

无监督机器翻译的原理

无监督的机器翻译，可以拆分成以下几步：

> 初始化翻译模型参数：

在没有平行语料的情况下，可以设计方法对模型进行预训练。例如：利用字对字的翻译字典，先进行单字对单字的翻译训练。虽然这种方式在语言和语料库不是高度相关，模型表现很差，但还是可以保留些原始的语言意义。

>> 训练语言模型：

拥有大量单语语料后，我们可以在这批单语语料上，训练语言模型，并把参数用在翻译模型上。

>>> 迭代反向翻译：

利用现有的模型，翻译单语语料，再将获得的结果，反向翻译并训练模型。

以下是无监督机器翻译的算法：

下面两个小节，我们会详细描述无监督神经网络和短语模型机器翻译的细节。

无监督神经网络机器翻译

> 初始化翻译模型参数：

不同于使用字对字翻译的初始化，本节采用字节对编码(Byte-pair encoding)的方式，对字节对进行翻译。这带来两个好处，第一，可以大幅减少字典大小，第二，这项工作的字节对编码方式，是当翻译的双语语料都拥有相同的字节对时，才进行编码，这可以帮助模型，理解双语间的意涵。

>> 训练语言模型：

利用以下的目标函示，训练语言模型(细节可以参考论文)：

>>> 迭代反向训练：

假设我们今天试图训练从中文到英文的翻译模型，我们可以利用上面两个步骤，产生的模型，将中文的语料，先翻译成英文，制造假的目标语料，在利用英翻中的模型，将假的目标语料翻译回中文，并训练我们的英翻中模型，反之亦然。整题可以看成我们在优化以下的目标函式：

利用来回迭代的方式，翻译模型的参数会渐渐收敛。

无监督基于短语的机器翻译

在语料比较少的情况下，基于短语的机器翻译效果会比神经网络翻译还要好很多。

> 初始化翻译模型参数：

将每个字的字向量，利用以下的公式，预训练初始化参数：

>>语言模型：

学习KenLM的语言模型。也可以使用神经网络模型，但在语料库很小的情况下，使用n-gram的模型效果会好一些。

>>> 迭代反向翻译：

利用和神经网络机器翻译一样的方式，进行迭代反向翻译。

结果分析

图表一

图表一，比较了本篇文章与以前无监督的翻译方法在英法翻译与英德翻译的效果。可以看到，神经网络模型与基于短语的模型均比过往的方法好上10个BLEU score。甚至，还没有进行迭代反向训练的短语模型，就已经比以前的方法好，可见语言模型在非监督式学习的巨大贡献。

图表二

图表二，点出了迭代反向训练的好处。从表中可以得知，经过越多次的迭代，翻译模型的效果越好。另外，结合神经网络模型与基于短语的模型，可以达到更好的效果。

本篇文章提供了非常好的思路，让我们可以巧妙的应用无监督式学习在机器翻译上。在没有平行语料的情况下，如何好好的利用语言模型带给我们的资讯，是所有做自然语言处理的人，都绞尽脑汁在思考的议题。期待日后有更多有关无监督式学习的文章出现。

http://7xo6kd.com1.z0.glb.clouddn.com/upload-ueditor-image-20170510-1494408432375053850.jpg

微信ID：WeChatAI

登录查看更多

2

相关内容

无监督机器翻译

无监督机器翻译

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

专知会员服务

7+阅读 · 2020年5月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知会员服务

105+阅读 · 2020年3月19日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

机器翻译深度学习最新综述

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

基于深度网络的自监督视觉特征学习综述，附24页论文下载

基于深度网络的自监督视觉特征学习综述，附24页论文下载

专知会员服务

66+阅读 · 2020年1月15日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

37+阅读 · 2019年12月4日

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

专知会员服务

14+阅读 · 2019年11月11日

论文浅尝 | 面向自动问题生成的跨语言训练

论文浅尝 | 面向自动问题生成的跨语言训练

开放知识图谱

8+阅读 · 2019年9月6日

论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

开放知识图谱

6+阅读 · 2019年8月19日

谷歌NLP新方法：无需翻译，质量优于无监督翻译模型

谷歌NLP新方法：无需翻译，质量优于无监督翻译模型

新智元

7+阅读 · 2019年6月24日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

机器学习算法与Python学习

8+阅读 · 2019年2月27日

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

PaperWeekly

6+阅读 · 2018年11月22日

谷歌最强NLP模型BERT官方中文版来了！多语言模型支持100种语言

谷歌最强NLP模型BERT官方中文版来了！多语言模型支持100种语言

新智元

5+阅读 · 2018年11月6日

【ACL2018】什么都能GAN，无监督神经网络翻译新方法

【ACL2018】什么都能GAN，无监督神经网络翻译新方法

专知

4+阅读 · 2018年5月24日

基于attention的seq2seq机器翻译实践详解

基于attention的seq2seq机器翻译实践详解

黑龙江大学自然语言处理实验室

11+阅读 · 2018年3月14日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

专知

5+阅读 · 2017年12月23日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

Unsupervised Neural Text Simplification

Arxiv

3+阅读 · 2018年12月19日

One-Shot Unsupervised Cross Domain Translation

Arxiv

5+阅读 · 2018年10月23日

Unsupervised Multilingual Word Embeddings

Arxiv

3+阅读 · 2018年8月27日

Phrase-Based & Neural Unsupervised Machine Translation

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

9+阅读 · 2018年8月13日

Unsupervised Neural Machine Translation with Weight Sharing

Arxiv

6+阅读 · 2018年4月24日

Unsupervised Machine Translation Using Monolingual Corpora Only

Arxiv

5+阅读 · 2018年4月13日

Unsupervised Neural Machine Translation

Arxiv

6+阅读 · 2018年2月26日

Towards Neural Phrase-based Machine Translation

Arxiv

4+阅读 · 2018年1月29日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

Convolutional Sequence to Sequence Learning

Arxiv

4+阅读 · 2017年7月25日

VIP会员

相关主题

无监督机器翻译

相关VIP内容

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

【伯克利】黑盒机器翻译系统的模仿攻击与防御，Imitation Attacks and Defenses for Black-box Machine Translation Systems

专知会员服务

7+阅读 · 2020年5月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知会员服务

105+阅读 · 2020年3月19日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

机器翻译深度学习最新综述

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

基于深度网络的自监督视觉特征学习综述，附24页论文下载

基于深度网络的自监督视觉特征学习综述，附24页论文下载

专知会员服务

66+阅读 · 2020年1月15日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

37+阅读 · 2019年12月4日

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

专知会员服务

14+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国海军陆战队软件定义网络应用案例：分布式防火墙自动化系统》148页

《多体环境下定位导航授时（PNT）系统研究》228页

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

《攻势防空作战中无人追击者/规避者最优轨迹研究（含动态交战区建模）》95页

相关资讯

论文浅尝 | 面向自动问题生成的跨语言训练

论文浅尝 | 面向自动问题生成的跨语言训练

开放知识图谱

8+阅读 · 2019年9月6日

论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

开放知识图谱

6+阅读 · 2019年8月19日

谷歌NLP新方法：无需翻译，质量优于无监督翻译模型

谷歌NLP新方法：无需翻译，质量优于无监督翻译模型

新智元

7+阅读 · 2019年6月24日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

机器学习算法与Python学习

8+阅读 · 2019年2月27日

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

PaperWeekly

6+阅读 · 2018年11月22日

谷歌最强NLP模型BERT官方中文版来了！多语言模型支持100种语言

谷歌最强NLP模型BERT官方中文版来了！多语言模型支持100种语言

新智元

5+阅读 · 2018年11月6日

【ACL2018】什么都能GAN，无监督神经网络翻译新方法

【ACL2018】什么都能GAN，无监督神经网络翻译新方法

专知

4+阅读 · 2018年5月24日

基于attention的seq2seq机器翻译实践详解

基于attention的seq2seq机器翻译实践详解

黑龙江大学自然语言处理实验室

11+阅读 · 2018年3月14日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

专知

5+阅读 · 2017年12月23日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

相关论文

Unsupervised Neural Text Simplification

Arxiv

3+阅读 · 2018年12月19日

One-Shot Unsupervised Cross Domain Translation

Arxiv

5+阅读 · 2018年10月23日

Unsupervised Multilingual Word Embeddings

Arxiv

3+阅读 · 2018年8月27日

Phrase-Based & Neural Unsupervised Machine Translation

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

9+阅读 · 2018年8月13日

Unsupervised Neural Machine Translation with Weight Sharing

Arxiv

6+阅读 · 2018年4月24日

Unsupervised Machine Translation Using Monolingual Corpora Only

Arxiv

5+阅读 · 2018年4月13日

Unsupervised Neural Machine Translation

Arxiv

6+阅读 · 2018年2月26日

Towards Neural Phrase-based Machine Translation

Arxiv

4+阅读 · 2018年1月29日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

Convolutional Sequence to Sequence Learning

Arxiv

4+阅读 · 2017年7月25日

大家都在搜

无人机集群

CMU博士论文

久别重逢话双塔

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员