论文标题:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
机构:Google Research
作者:Jingqing Zhang, Yao Zhao, Mohammad Saleh, Peter J. Liu
论文地址:https://www.aminer.cn/pub/5dfb4b2f3a55acc4878bd402
收录会议:ICML 2020
论文代码:https://github.com/google-research/pegasus
近些年 Transformers 在海量语料上进行自监督预训练再到下游各种NLP任务(当然也包括文本摘要)上微调的方案已取得巨大成功。但是,尚未有针抽象文本摘要(abstractive text summarization)定制预训练目标。此外,目前抽象文本摘要任务也缺乏跨领域的系统评价。
为此,本文提出了一种新的自监督预训练目标:GSG(Gap Sentences Generation),以适配 Transformer-based 的 encoder-decoder 模型在海量文本语料上预训练。在 PEGASUS 中, 将输入文档中的“重要句子”删除或者遮蔽,再利用剩余的句子在输出中生成这些被删除或遮蔽的句子。从输入和输出看,该目标与文本摘要类似。
本文以 12 个文本摘要数据集(包括新闻、科学、故事、使用说明、电子邮件、专利和立法议案)对最好的 PEGASUS 模型进行全面测试。实验结果是:PEGASUS 刷新 12 个数据集的 ROUGE 得分记录。另外,PEGASUS 模型在处理低资源摘要数据集也显示出惊人的性能,在 6 个数据集上仅以 1000 个样本就超过了之前的最先进结果。最后,本文还对 PEGASUS 模型生成的摘要结果进行人工评测,结果表明本文的模型在多个数据集上达到与人工摘要相媲美的性能。
模型
本文假设预训练自监督的目标越接近最终的任务则结果性能越好。在 PEGASUS 预训练中,将文件里的几个完整句子删除,而模型的目标就是要恢复这些句子,换句话说,用来预训练的输入是有缺失部分句子的文档,而输出则是缺失句子的串连。这是一项难以置信的艰巨任务,甚至对人人类来说也是不可能的,我们并不期望模型能完美地解决它。然而,这样一个具有挑战性的任务促使模型学习到关于语言的知识和这个世界的一般事实,以及如何从整个文档中提取信息,以便生成类似于微调摘要任务的输出。这种自监督的优点是,可以创建与文档一样多的示例,而不需要任何人工注释,而这通常是纯监督系统的阿喀琉斯之踵。
实验发现,选择重要的句子来遮蔽效果最好,让自监督示例的输出结果更像摘要。那么怎么选择重要的句子?根据 ROUGE 度量标准,通过查找那些与文档的其他部分最相似的句子,自动地识别出这些句子。ROUGE 计算两个文本的 n-gram 重叠,从而得到文本之间的相似性(ROUGE-1、ROUGE-2 和 ROUGE-L 是三种常见的变体)。句子选择策略如 Figure 2 所示:
预训练语料和下游任务
与 T5 类似,本文预训练所用的海量语料也是通过网络爬取。接着在 12 个抽象摘要数据集上微调 PEGASUS,以 ROUGE 得分来看取得当下最好结果,但参数量只有 T5 的 5%。参与评测的 12 个数据集是多样的的,包括新闻文章、科学论文、专利、短篇小说、电子邮件、法律文件和使用指南,这表明模型框架适用于广泛的主题,具有一定通用性。
预训练的语料具体如下:
(1)C4,这是 T5 中引入的语料
(2)HugeNews,这是本文新引入的
下游任务具体如下:
(1)XSum(2)CNN/DailyMail(3)NEWSROOM(4)Multi-News(5)Gigaword(6)arXiv(7)PubMed(8)BIGPATENT(9)WikiHow(10)Reddit TIFU(11)AESLC(12)BillSum
PEGASUS_{base}版:
参数量为 223M,L=12,H=768,F=3072,A=12,batch size=256。
PEGASUS_{large}版:
参数量为 568M,L=16,H=1024,F=4096,A=16,batch size=8192。
消融研究
模型的消融研究基 于PEGASUS_{BASE},研究对象:预训练语料、预训练目标、词典尺寸。
预训练语料的影响如 Figure 3 所示:
Figure 4a 可以看出 Ind-Orig 的方案最佳,Seq-Uniq 次之。Figure 4a 展示了 gap-sentences 比例(GSR)的影响。实验表明 GSR 低于 50% 较好,在 CNN/DailyMail 数据集上 15% 的比例可以得到最优结果。而 XSum/Reddit TIFU 和 WikiHow 的最佳值分别是 30% 和 45%。
Figure 5 展示了词典大小的影响:
Larger 模型效果
基于之前的实验,在 Large 版的模型中选用的是 GSG(Ind-Orig)预训练目标(不带有MLM)、Unigram 词典大小 96k。
Table 1和 Table 2展示了 PEGASUS_{BASE} 和 PEGASUS_{LARGE}在下游任务上的表现。PEGASUS_{BASE}在多项任务上超过当前最优结果,PEGASUS_{LARGE} 则在全部下游任务超越当下最优结果。
Large 版只要用 100 个样本进行微调就可以得到与 Base 版在 20k 到 200k 样本上进行监督训练相近的结果。Large 版在其中的 6 个任务上以 1000 个微调样本量就超越了之前的最优结果。在只有 1000 个微调样本的情况下,在大多数任务中都比使用完整监督数据的强基线(Transformer 编码器-解码器)执行得更好,在某些情况下,强基线(Transformer 编码器-解码器)使用的是多个数量级的样本。这种“样本效率”极大地提高了文本摘要模型的有用性,因为它显著地降低了监督数据收集的规模和成本,而在摘要的情况下,监督数据收集的成本是非常昂贵的。
人工评测
虽然使用像 ROUGE 这样的自动度量标准在模型开发过程中作为度量标准有用,但是该标准提供的信息有限,比如无法获悉文本摘要的流畅性或者与人类性能相比较结果如何。为此,本文还进行了一次人工评估,要求评分者将文本的模型摘要结果与人工摘要进行比较(不知道哪个是哪个)。这与图灵测试有一些相似之处。
总结
联系笔者
刘杰鹏,毕业于华中科技大学,研究方向机器阅读理解、文本生成等。现居深圳,微信号 onepieceand,欢迎同道中人进一步交流。