Can pre-trained BERT for one language and GPT for another be glued together to translate texts? Self-supervised training using only monolingual data has led to the success of pre-trained (masked) language models in many NLP tasks. However, directly connecting BERT as an encoder and GPT as a decoder can be challenging in machine translation, for GPT-like models lack a cross-attention component that is needed in seq2seq decoders. In this paper, we propose Graformer to graft separately pre-trained (masked) language models for machine translation. With monolingual data for pre-training and parallel data for grafting training, we maximally take advantage of the usage of both types of data. Experiments on 60 directions show that our method achieves average improvements of 5.8 BLEU in x2en and 2.9 BLEU in en2x directions comparing with the multilingual Transformer of the same size.


翻译:对于一种语言和另一种语言的GPT,经过预先培训的BERT能够粘合在一起翻译文本吗?仅使用单一语言数据的自我监督培训导致许多NLP任务中培训前(制成)语言模型的成功。然而,将BERT作为编码器和GPT作为解码器直接连接起来,在机器翻译方面可能具有挑战性,因为类似GPT的模型缺乏后继2Seq decoders所需要的交叉注意部分。在本文中,我们建议Graeder在机器翻译方面分别采用经过培训前(制成)语言模型。在培训前采用单一语言数据,在滚动培训中采用平行数据,我们最大限度地利用了这两种数据的使用。60个方向的实验表明,我们的方法在x2en中实现了5.8 BLEU的平均改进,在en2en中实现了2.9 BLEU值,在正2x方向上实现了与相同大小的多语言变换器相比的平均改进。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
86+阅读 · 2020年9月6日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
VIP会员
Top
微信扫码咨询专知VIP会员