Recently, universal neural machine translation (NMT) with shared encoder-decoder gained good performance on zero-shot translation. Unlike universal NMT, jointly trained language-specific encoders-decoders aim to achieve universal representation across non-shared modules, each of which is for a language or language family. The non-shared architecture has the advantage of mitigating internal language competition, especially when the shared vocabulary and model parameters are restricted in their size. However, the performance of using multiple encoders and decoders on zero-shot translation still lags behind universal NMT. In this work, we study zero-shot translation using language-specific encoders-decoders. We propose to generalize the non-shared architecture and universal NMT by differentiating the Transformer layers between language-specific and interlingua. By selectively sharing parameters and applying cross-attentions, we explore maximizing the representation universality and realizing the best alignment of language-agnostic information. We also introduce a denoising auto-encoding (DAE) objective to jointly train the model with the translation task in a multi-task manner. Experiments on two public multilingual parallel datasets show that our proposed model achieves a competitive or better results than universal NMT and strong pivot baseline. Moreover, we experiment incrementally adding new language to the trained model by only updating the new model parameters. With this little effort, the zero-shot translation between this newly added language and existing languages achieves a comparable result with the model trained jointly from scratch on all languages.


翻译:最近,通用神经机器翻译(NMT)与共用编码器-代碼器(NMT)在零点翻译方面业绩良好。与通用NMT不同的是,经过联合培训的针对特定语言的编码器-代码器(NMT)旨在实现所有非共享模块的普遍代表性,每个模块都是针对一个语言或语言家庭的。非共享架构具有缓解内部语言竞争的优势,特别是当共享词汇和模型参数的大小受到限制时。但是,在零点翻译中使用多个编码器和解码器(NMT)的绩效仍然落后于通用NMT。在这项工作中,我们使用特定语言的编码码(DAE)来研究零点翻译。我们提议将非共享架构和通用NMT(NMT)系统(NMT)系统(NMD)系统(NMT)系统(NMT)系统(NC)系统(NMT)系统(NMT)系统(NMT)系统(ND)系统(OV)系统(ND)系统(NDL)系统(ND(ND)系统)(NDL)系统(NDOL(ND)系统(ND)系统) (ND) (ND) (NV) (NV) (ND(ND) (ND(ND) (ND) (NDOL(NT) (NT) (NT) (NV) (NT) (NT) (NB) (ND) (G) (ND) (NT) (NT) (ND) (G) (NT) (ND) (G) (通用语言(ND) (ND) (ND) (G) (N) (G) (ND) (N) (N)) (N) (N) (G) (N) (ND) (ND) (G) (ND) (ND) (ND) (ND) (ND) (ND) (ND) (N) (N) (N) (N) (N) (N) (N) (N) (N) (N) (N) (N) (N) (N) (N) (N) (N) (N) (

0
下载
关闭预览

相关内容

商业数据分析,39页ppt
专知会员服务
158+阅读 · 2020年6月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
7+阅读 · 2018年6月1日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
5+阅读 · 2018年1月16日
VIP会员
Top
微信扫码咨询专知VIP会员