Transformer models have achieved state-of-the-art results in a wide range of NLP tasks including summarization. Training and inference using large transformer models can be computationally expensive. Previous work has focused on one important bottleneck, the quadratic self-attention mechanism in the encoder. Modified encoder architectures such as LED or LoBART use local attention patterns to address this problem for summarization. In contrast, this work focuses on the transformer's encoder-decoder attention mechanism. The cost of this attention becomes more significant in inference or training approaches that require model-generated histories. First, we examine the complexity of the encoder-decoder attention. We demonstrate empirically that there is a sparse sentence structure in document summarization that can be exploited by constraining the attention mechanism to a subset of input sentences, whilst maintaining system performance. Second, we propose a modified architecture that selects the subset of sentences to constrain the encoder-decoder attention. Experiments are carried out on abstractive summarization tasks, including CNN/DailyMail, XSum, Spotify Podcast, and arXiv.


翻译:变异器模型在一系列NLP任务中取得了最先进的结果, 包括概括化。 使用大型变异器模型的培训和推断可以计算成本。 先前的工作侧重于一个重要的瓶颈, 编码器中的二次自我注意机制。 LED 或 LoBART 等变异的编码器结构使用本地关注模式来解决这个问题来进行总结。 相比之下, 这项工作侧重于变异器的编码器解码器注意机制。 这种关注的成本在推断或培训方法方面变得更为重要, 需要模型生成的历史。 首先, 我们检查编码解变器注意的复杂性。 我们从经验上表明, 将注意机制限制为输入句子集, 从而可以利用文件的简略语结构。 其次, 我们提出一个修改后的结构, 选择子句子子来限制编码解码器的注意。 实验是在抽象的合成任务上进行的, 包括 CNN/ DailyMail、 XSMOXricast、 和 SMOXrifrical。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
专知会员服务
91+阅读 · 2021年8月28日
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
最新《Transformers模型》教程,64页ppt
专知会员服务
291+阅读 · 2020年11月26日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
自动结构变分推理,Automatic structured variational inference
专知会员服务
38+阅读 · 2020年2月10日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Understanding How Encoder-Decoder Architectures Attend
Arxiv
0+阅读 · 2021年10月28日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2019年4月25日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
5+阅读 · 2017年4月12日
VIP会员
相关VIP内容
专知会员服务
91+阅读 · 2021年8月28日
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
最新《Transformers模型》教程,64页ppt
专知会员服务
291+阅读 · 2020年11月26日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
自动结构变分推理,Automatic structured variational inference
专知会员服务
38+阅读 · 2020年2月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关论文
Top
微信扫码咨询专知VIP会员