《使用篇章上下文提升 Transformer 翻译模型》是搜狗和清华大学天工研究院合作发表在 EMNLP 2018 的工作。机器翻译在搜狗公司的多个产品线得到广泛应用,包括搜狗英文搜索、搜狗输入法、搜狗翻译 APP、搜狗旅行翻译宝等。许多产品场景下,都需要使用句子的上下文信息来帮助翻译。
为此,我们提出了一个基于自注意力翻译模型 Transformer 的篇章级别翻译模型,利用丰富的上下文信息来帮助进行句子的翻译。与此同时,该模型对机器翻译领域篇章级别翻译质量的提升也有贡献。
篇章翻译可以解决机器翻译中的上下文依赖等问题,是机器翻译的重要研究问题,也是今年的一个热点,我们的模型是在 Transformer 效果上最好的之一。
已有的考虑篇章上下文的 NMT 工作主要存在以下几个问题:
1. 大多数方法是基于循环神经网络的翻译模型 RNNsearch 的,无法移植到最新的基于自注意力的翻译模型 Transformer 上;
2. 大多数只在解码器端利用篇章上下文信息,而没有在源端编码时使用;
3. 只能使用篇章级别的语料进行训练,但是篇章级别的语料规模比句级别语料小的多。
我们针对以上几个问题进行改进。首先先在建模方面,我们通过在自注意力模型上添加模块来融入篇章上下文信息(图 1),其中红色部分是我们新增的模块。最左边这一列是上下文编码器,其输入是源端待翻译的句子同一个文档中的前 k 个句子。上下文编码器是一个多层结构,每一层都包含一个自注意力层和一个前向层(类似于 Transformer 的编码器)。
▲ 图1. 本文提出的模型
但是在实验中我们发现,上下文编码器只用 1 层就达到了很好的效果,使用更多层不仅不能得到更好的效果,还会对模型的计算效率产生负面影响。接下来,我们使用 multi-head 注意力机制将得到的篇章上下文的隐层表示同时融入到源端编码器和解码器中。我们将此称为上下文注意力(Context Attention)。
为了得到更好的模型,我们采用了两步训练法来利用充足的句级别语料。第一步,我们使用所有可用语料(包括句级别和篇章级别)训练一个标准的自注意力翻译模型。第二步,我们再使用篇章级别的语料训练我们加入的模块。在这一步,我们会冻结其他参数,防止模型在较小规模的篇章级别语料上过拟合。
实验(表 1)表明,我们的方法显著好于 Transformer 和基于 RNNsearch 的篇章翻译模型。
▲ 表1. 实验结果
点击以下标题查看更多论文解读:
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文 & 源码