Transformer-based models have achieved state-of-the-art results in a wide range of natural language processing (NLP) tasks including document summarization. Typically these systems are trained by fine-tuning a large pre-trained model to the target task. One issue with these transformer-based models is that they do not scale well in terms of memory and compute requirements as the input length grows. Thus, for long document summarization, it can be challenging to train or fine-tune these models. In this work, we exploit large pre-trained transformer-based models and address long-span dependencies in abstractive summarization using two methods: local self-attention; and explicit content selection. These approaches are compared on a range of network configurations. Experiments are carried out on standard long-span summarization tasks, including Spotify Podcast, arXiv, and PubMed datasets. We demonstrate that by combining these methods, we can achieve state-of-the-art results on all three tasks in the ROUGE scores. Moreover, without a large-scale GPU card, our approach can achieve comparable or better results than existing approaches.


翻译:以变压器为基础的模型在包括文件摘要化在内的各种自然语言处理(NLP)任务中取得了最先进的结果。这些系统通常通过微调一个大型预先培训的模型对目标任务进行培训。这些变压器模型的一个问题是,这些模型在记忆和计算要求方面规模不高,而随着输入长度的提高,这些模型的记忆和计算要求也不同。因此,对于长期的文件总和来说,培训或微调这些模型可能具有挑战性。在这项工作中,我们利用了大型预先培训的变压器模型,并用两种方法来解决抽象式总和的长期依赖性:当地自省;和明确的内容选择。这些方法比较了网络配置的范围。实验是在标准长宽的拼凑任务上进行的,包括Spodificast、arXiv和PubMed数据集。我们证明,通过结合这些方法,我们能够在ROUGEE分数的所有三项任务中实现最先进的结果。此外,没有大规模GPUP卡,我们的方法可以比现有的结果更好。

0
下载
关闭预览

相关内容

【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
专知会员服务
60+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【文本摘要】Text Summarization文本摘要与注意力机制
深度学习自然语言处理
9+阅读 · 2020年3月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
大神 一年100篇论文
CreateAMind
15+阅读 · 2018年12月31日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关VIP内容
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
专知会员服务
60+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
【文本摘要】Text Summarization文本摘要与注意力机制
深度学习自然语言处理
9+阅读 · 2020年3月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
大神 一年100篇论文
CreateAMind
15+阅读 · 2018年12月31日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
Top
微信扫码咨询专知VIP会员