Document-level MT models are still far from satisfactory. Existing work extend translation unit from single sentence to multiple sentences. However, study shows that when we further enlarge the translation unit to a whole document, supervised training of Transformer can fail. In this paper, we find such failure is not caused by overfitting, but by sticking around local minima during training. Our analysis shows that the increased complexity of target-to-source attention is a reason for the failure. As a solution, we propose G-Transformer, introducing locality assumption as an inductive bias into Transformer, reducing the hypothesis space of the attention from target to source. Experiments show that G-Transformer converges faster and more stably than Transformer, achieving new state-of-the-art BLEU scores for both non-pretraining and pre-training settings on three benchmark datasets.


翻译:文件层面的MT模型仍然远远不能令人满意。 现有的工作将翻译单位从单句扩大到多个句子。 但是,研究表明,当我们进一步将翻译单位扩大到整个文件时,对变异器的监督培训可能失败。 在本文中,我们发现这种失败不是由于超装造成的,而是在培训期间停留在本地迷你地带。我们的分析表明,目标对源的注意力日益复杂是失败的原因之一。作为一个解决方案,我们提议G-Transer(Terrafer)将地点假设作为变异器的一种诱导偏差,从而将目标关注的假设空间从目标转向源。 实验表明,G- Transer(G-Transer)比变异器更快、更刺切,在三个基准数据集的未准备和训练前环境都达到了新的最先进的BLEU分数。

0
下载
关闭预览

相关内容

机器翻译(Machine Translation)涵盖计算语言学和语言工程的所有分支,包含多语言方面。特色论文涵盖理论,描述或计算方面的任何下列主题:双语和多语语料库的编写和使用,计算机辅助语言教学,非罗马字符集的计算含义,连接主义翻译方法,对比语言学等。 官网地址:http://dblp.uni-trier.de/db/journals/mt/
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
66+阅读 · 2021年5月23日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
专知会员服务
124+阅读 · 2020年9月8日
最新《序列预测问题导论》教程,212页ppt
专知会员服务
85+阅读 · 2020年8月22日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年4月18日
Arxiv
3+阅读 · 2018年3月28日
VIP会员
相关VIP内容
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
66+阅读 · 2021年5月23日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
专知会员服务
124+阅读 · 2020年9月8日
最新《序列预测问题导论》教程,212页ppt
专知会员服务
85+阅读 · 2020年8月22日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员