【ICML2020-Google】预训练提取的空白句子以便进行抽象的总结

2020 年 7 月 1 日 专知


PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization


近些年 Transformers 在海量语料上进行自监督预训练再到下游各种NLP任务(当然也包括文本摘要)上微调的方案已取得巨大成功。但是,尚未有针抽象文本摘要(abstractive text summarization)定制预训练目标。此外,目前抽象文本摘要任务也缺乏跨领域的系统评价。为此,本文提出了一种新的自监督预训练目标:GSG(Gap Sentences Generation),以适配 Transformer-based 的 encoder-decoder 模型在海量文本语料上预训练。在 PEGASUS 中, 将输入文档中的“重要句子”删除或者遮蔽,再利用剩余的句子在输出中生成这些被删除或遮蔽的句子。从输入和输出看,该目标与文本摘要类似。本文以 12 个文本摘要数据集(包括新闻、科学、故事、使用说明、电子邮件、专利和立法议案)对最好的 PEGASUS 模型进行全面测试。实验结果是:PEGASUS 刷新 12 个数据集的 ROUGE 得分记录。另外,PEGASUS 模型在处理低资源摘要数据集也显示出惊人的性能,在 6 个数据集上仅以 1000 个样本就超过了之前的最先进结果。最后,本文还对 PEGASUS 模型生成的摘要结果进行人工评测,结果表明本文的模型在多个数据集上达到与人工摘要相媲美的性能。

https://www.zhuanzhi.ai/paper/8f361c083ad031d1b9f06afc2f10928c


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“PEGASUS” 可以获取《ICML2020-Google-预训练提取的空白句子以便进行抽象的总结》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
欢迎扫一扫关注专知视频号,第一时间看人工智能最新精彩视频!

点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
126+阅读 · 2020年7月20日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
零样本图像识别综述论文
专知
21+阅读 · 2020年4月4日
【资源】最新BERT相关论文清单汇总
专知
33+阅读 · 2019年10月2日
【ACL】文本摘要研究工作总结
中国人工智能学会
30+阅读 · 2019年8月10日
39页《迁移学习自然语言生成》PPT
专知
9+阅读 · 2019年2月13日
论文写作修辞速查:单词、短语、句子
专知
6+阅读 · 2018年10月29日
干货|当深度学习遇见自动文本摘要
全球人工智能
9+阅读 · 2017年7月26日
Arxiv
13+阅读 · 2020年4月12日
Arxiv
5+阅读 · 2019年8月22日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
8+阅读 · 2019年3月21日
VIP会员
相关资讯
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
零样本图像识别综述论文
专知
21+阅读 · 2020年4月4日
【资源】最新BERT相关论文清单汇总
专知
33+阅读 · 2019年10月2日
【ACL】文本摘要研究工作总结
中国人工智能学会
30+阅读 · 2019年8月10日
39页《迁移学习自然语言生成》PPT
专知
9+阅读 · 2019年2月13日
论文写作修辞速查:单词、短语、句子
专知
6+阅读 · 2018年10月29日
干货|当深度学习遇见自动文本摘要
全球人工智能
9+阅读 · 2017年7月26日
Top
微信扫码咨询专知VIP会员