Previous works have shown that contextual information can improve the performance of neural machine translation (NMT). However, most existing document-level NMT methods only consider a few number of previous sentences. How to make use of the whole document as global contexts is still a challenge. To address this issue, we hypothesize that a document can be represented as a graph that connects relevant contexts regardless of their distances. We employ several types of relations, including adjacency, syntactic dependency, lexical consistency, and coreference, to construct the document graph. Then, we incorporate both source and target graphs into the conventional Transformer architecture with graph convolutional networks. Experiments on various NMT benchmarks, including IWSLT English--French, Chinese-English, WMT English--German and Opensubtitle English--Russian, demonstrate that using document graphs can significantly improve the translation quality. Extensive analysis verifies that the document graph is beneficial for capturing discourse phenomena.


翻译:过去的工作表明,背景信息可以改善神经机翻译(NMT)的性能。然而,大多数现有的文件级NMT方法只考虑前几个句子。如何将整个文件作为全球背景加以利用仍是一个挑战。为解决这一问题,我们假设文件可以作为图表来代表,将相关背景联系起来,而不论其距离如何。我们使用几种类型的关系来构建文档图表,包括相近性、综合依赖性、词汇一致性和共同参照。然后,我们将源和目标图表都纳入常规变换器结构中,并配有图形相联网络。关于各种NMT基准的实验,包括IWSLT英语-法语、中文-英语、WMT英语、德语和英语-俄语开放字幕英语-俄语,表明使用文档图表可以大大改进翻译质量。广泛的分析证实文件图有助于捕捉谈话现象。

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
3+阅读 · 2018年4月18日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
5+阅读 · 2018年1月16日
VIP会员
Top
微信扫码咨询专知VIP会员