Abstractive document summarization is usually modeled as a sequence-to-sequence (Seq2Seq) learning problem. Unfortunately, training large Seq2Seq based summarization models on limited supervised summarization data is challenging. This paper presents three pre-training objectives which allow us to pre-train a Seq2Seq based abstractive summarization model on unlabeled text. The main idea is that, given an input text artificially constructed from a document, a model is pre-trained to reinstate the original document. These objectives include sentence reordering, next sentence generation, and masked document generation, which have close relations with the abstractive document summarization task. Experiments on two benchmark summarization datasets (i.e., CNN/DailyMail and New York Times) show that all three objectives can improve performance upon baselines. Compared to models pre-trained on large-scale data (more than 160GB), our method, with only 19GB text for pre-training, achieves comparable results, which demonstrates its effectiveness.


翻译:抽象文件摘要化通常以序列到序列(Seq2Seq)的学习问题为模型。 不幸的是,在有限监督的汇总数据上培训大型Seq2Seq基于的汇总模型具有挑战性。本文件介绍了三个培训前目标,使我们能够在未贴标签的文本上对基于Seq2Seq的抽象汇总模型进行预培训。主要想法是,鉴于一个从文件人工制作的输入文本,一个模型经过预先训练才能恢复原始文件。这些目标包括重排句次、下一代句子和隐藏文件生成,这些与抽象文件汇总任务有密切关系。关于两个基准汇总数据集(即CNN/DailyMail和New York Times)的实验表明,所有三个目标都能提高基线的性能。与大规模数据(超过160GB)预先培训的模型相比,我们的方法(只有19GB的预培训文本),取得了相似的结果,表明其有效性。

0
下载
关闭预览

相关内容

seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
【ACL】文本摘要研究工作总结
中国人工智能学会
30+阅读 · 2019年8月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
11+阅读 · 2018年10月17日
Arxiv
8+阅读 · 2018年6月19日
VIP会员
相关资讯
【ACL】文本摘要研究工作总结
中国人工智能学会
30+阅读 · 2019年8月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Top
微信扫码咨询专知VIP会员