【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合 - 专知VIP

会员服务 ·

2

深度序列建模 · 编码器特征融合 ·

2021 年 2 月 12 日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

从理解到改进：序列到序列建模中的编码器特征融合

Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning

本文由腾讯AI Lab主导，与澳门大学、悉尼大学合作完成。编码器特征融合（EncoderFusion）是提升序列到序列建模中的经典技术之一。尽管其有效性已在各种自然语言处理（NLP）任务上得到的验证，但其原理及规律并没有被深入探究。

本文首先提出了细粒度层注意力模型来量化编码器每一层特征的贡献度，并在多个NLP任务（机器翻译、语法纠错、文本摘要）上进行分析，从而进一步理解EncoderFusion的本质。前人工作认为EncoderFusion主要利用嵌在编码器底层的词法和语法信息，而我们发现编码器词嵌入层比其他中间层更重要，并且始终受到解码器最上层的关注。基于该发现，我们提出了一种简单直接的融合方法，即只融合编码器词嵌入层到解码器输出层。

实验结果表明，该方法在多种序列建模任务上都优于已有融合方法，并使翻译任务在WMT16罗英和WMT14英法数据集上取得SOTA性能。分析进一步表明，SurfaceFusion能帮助模型学到更具表现力的双语词嵌入。该工作对编码器特征融合的改进和使用有较强启发和指导意义。

成为VIP会员查看完整内容

37

相关内容

深度序列建模

深度序列建模

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知会员服务

44+阅读 · 2021年2月27日

【ICLR2021】基于图信息瓶颈的子图识别

专知会员服务

19+阅读 · 2021年2月8日

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

中文预训练语言模型回顾

专知会员服务

34+阅读 · 2020年11月25日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【哈佛-ICLR2020】基于残差能量模型的文本生成，Residual Energy-Based Models for Text Generation

【哈佛-ICLR2020】基于残差能量模型的文本生成，Residual Energy-Based Models for Text Generation

专知会员服务

11+阅读 · 2020年4月27日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

AI科技评论

5+阅读 · 2019年5月15日

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条

AI100

5+阅读 · 2019年5月10日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

利用神经网络进行序列到序列转换的学习

利用神经网络进行序列到序列转换的学习

AI研习社

12+阅读 · 2019年4月26日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

三次简化一张图：一招理解LSTM/GRU门控机制

三次简化一张图：一招理解LSTM/GRU门控机制

机器之心

16+阅读 · 2018年12月18日

关于序列建模，是时候抛弃RNN和LSTM了

关于序列建模，是时候抛弃RNN和LSTM了

数盟

7+阅读 · 2018年4月20日

【回顾】用面向对象的神经规划进行文本理解

【回顾】用面向对象的神经规划进行文本理解

AI研习社

5+阅读 · 2017年11月14日

A Survey of Knowledge-Enhanced Text Generation

Arxiv

18+阅读 · 2020年10月9日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

Graph Transformer for Graph-to-Sequence Learning

Graph Transformer for Graph-to-Sequence Learning

Arxiv

4+阅读 · 2019年11月30日

Learning Deep Transformer Models for Machine Translation

Learning Deep Transformer Models for Machine Translation

Arxiv

3+阅读 · 2019年6月5日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Insertion-based Decoding with automatically Inferred Generation Order

Arxiv

5+阅读 · 2019年2月28日

Generating Realistic Geology Conditioned on Physical Measurements with Generative Adversarial Networks

Generating Realistic Geology Conditioned on Physical Measurements with Generative Adversarial Networks

Arxiv

6+阅读 · 2018年7月5日

Deep RNNs Encode Soft Hierarchical Syntax

Arxiv

3+阅读 · 2018年5月11日

Game of Sketches: Deep Recurrent Models of Pictionary-style Word Guessing

Arxiv

5+阅读 · 2018年1月29日

VIP会员

相关主题

深度序列建模

编码器特征融合

相关VIP内容

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知会员服务

44+阅读 · 2021年2月27日

【ICLR2021】基于图信息瓶颈的子图识别

专知会员服务

19+阅读 · 2021年2月8日

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

中文预训练语言模型回顾

专知会员服务

34+阅读 · 2020年11月25日

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

【EMNLP2020-CMU&字节跳动】基于预训练语言模型的句子嵌入研究

专知会员服务

23+阅读 · 2020年11月14日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【哈佛-ICLR2020】基于残差能量模型的文本生成，Residual Energy-Based Models for Text Generation

【哈佛-ICLR2020】基于残差能量模型的文本生成，Residual Energy-Based Models for Text Generation

专知会员服务

11+阅读 · 2020年4月27日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

AI科技评论

5+阅读 · 2019年5月15日

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条

AI100

5+阅读 · 2019年5月10日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

利用神经网络进行序列到序列转换的学习

利用神经网络进行序列到序列转换的学习

AI研习社

12+阅读 · 2019年4月26日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

三次简化一张图：一招理解LSTM/GRU门控机制

三次简化一张图：一招理解LSTM/GRU门控机制

机器之心

16+阅读 · 2018年12月18日

关于序列建模，是时候抛弃RNN和LSTM了

关于序列建模，是时候抛弃RNN和LSTM了

数盟

7+阅读 · 2018年4月20日

【回顾】用面向对象的神经规划进行文本理解

【回顾】用面向对象的神经规划进行文本理解

AI研习社

5+阅读 · 2017年11月14日

相关论文

A Survey of Knowledge-Enhanced Text Generation

Arxiv

18+阅读 · 2020年10月9日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

Graph Transformer for Graph-to-Sequence Learning

Graph Transformer for Graph-to-Sequence Learning

Arxiv

4+阅读 · 2019年11月30日

Learning Deep Transformer Models for Machine Translation

Learning Deep Transformer Models for Machine Translation

Arxiv

3+阅读 · 2019年6月5日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Insertion-based Decoding with automatically Inferred Generation Order

Arxiv

5+阅读 · 2019年2月28日

Generating Realistic Geology Conditioned on Physical Measurements with Generative Adversarial Networks

Generating Realistic Geology Conditioned on Physical Measurements with Generative Adversarial Networks

Arxiv

6+阅读 · 2018年7月5日

Deep RNNs Encode Soft Hierarchical Syntax

Arxiv

3+阅读 · 2018年5月11日

Game of Sketches: Deep Recurrent Models of Pictionary-style Word Guessing

Arxiv

5+阅读 · 2018年1月29日

微信扫码咨询专知VIP会员