State-of-the-art summarization systems are trained and evaluated on massive datasets scraped from the web. Despite their prevalence, we know very little about the underlying characteristics (data noise, summarization complexity, etc.) of these datasets, and how these affect system performance and the reliability of automatic metrics like ROUGE. In this study, we manually analyze 600 samples from three popular summarization datasets. Our study is driven by a six-class typology which captures different noise types (missing facts, entities) and degrees of summarization difficulty (extractive, abstractive). We follow with a thorough analysis of 27 state-of-the-art summarization models and 5 popular metrics, and report our key insights: (1) Datasets have distinct data quality and complexity distributions, which can be traced back to their collection process. (2) The performance of models and reliability of metrics is dependent on sample complexity. (3) Faithful summaries often receive low scores because of the poor diversity of references. We release the code, annotated data and model outputs.


翻译:尽管这些数据集普遍存在,但我们对这些数据集的基本特征(数据噪音、汇总复杂性等)知之甚少,这些特征如何影响系统性能和像ROUGE这样的自动计量的可靠性。在这项研究中,我们手动分析了三个广受欢迎的汇总数据集的600个样本。我们的研究是由六类类型类型驱动的,它捕捉了不同的噪音类型(缺乏事实、实体)和汇总难度(极端、抽象)的程度。我们对这些数据集的基本特征(数据噪音、汇总复杂性等)进行透彻分析,并报告我们的主要见解:(1)数据集具有不同的数据质量和复杂性分布,可追溯到它们的收集过程。(2) 模型的性能和可靠性取决于抽样的复杂性。(3) 可靠的摘要往往由于引用的多样性而得分较低。我们发布了代码、附加说明的数据和模型产出。

0
下载
关闭预览

相关内容

【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
已删除
将门创投
4+阅读 · 2018年11月15日
Arxiv
0+阅读 · 2021年8月23日
Arxiv
8+阅读 · 2021年7月15日
Arxiv
6+阅读 · 2019年9月4日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2018年11月15日
Top
微信扫码咨询专知VIP会员