从理解到改进:序列到序列建模中的编码器特征融合

Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning

本文由腾讯AI Lab主导,与澳门大学、悉尼大学合作完成。编码器特征融合(EncoderFusion)是提升序列到序列建模中的经典技术之一。尽管其有效性已在各种自然语言处理(NLP)任务上得到的验证,但其原理及规律并没有被深入探究。

本文首先提出了细粒度层注意力模型来量化编码器每一层特征的贡献度,并在多个NLP任务(机器翻译、语法纠错、文本摘要)上进行分析,从而进一步理解EncoderFusion的本质。前人工作认为EncoderFusion主要利用嵌在编码器底层的词法和语法信息,而我们发现编码器词嵌入层比其他中间层更重要,并且始终受到解码器最上层的关注。基于该发现,我们提出了一种简单直接的融合方法,即只融合编码器词嵌入层到解码器输出层。

实验结果表明,该方法在多种序列建模任务上都优于已有融合方法,并使翻译任务在WMT16罗英和WMT14英法数据集上取得SOTA性能。分析进一步表明,SurfaceFusion能帮助模型学到更具表现力的双语词嵌入。该工作对编码器特征融合的改进和使用有较强启发和指导意义。

成为VIP会员查看完整内容
36

相关内容

【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
【ICLR2021】通过多种自监督方式提升GAT中注意力
专知会员服务
43+阅读 · 2021年2月27日
专知会员服务
18+阅读 · 2021年2月8日
专知会员服务
33+阅读 · 2020年11月25日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
三次简化一张图:一招理解LSTM/GRU门控机制
机器之心
15+阅读 · 2018年12月18日
关于序列建模,是时候抛弃RNN和LSTM了
数盟
7+阅读 · 2018年4月20日
【回顾】用面向对象的神经规划进行文本理解
AI研习社
5+阅读 · 2017年11月14日
Arxiv
18+阅读 · 2020年10月9日
Graph Transformer for Graph-to-Sequence Learning
Arxiv
4+阅读 · 2019年11月30日
Arxiv
5+阅读 · 2019年4月21日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
3+阅读 · 2018年5月11日
VIP会员
微信扫码咨询专知VIP会员