OpenKG地址:http://openkg.cn/dataset/sgsum
GitHub:https://github.com/krystalan/SGSum
开放许可协议:CC BY-SA 4.0 (署名相似共享)
贡献者:苏州大学(王佳安、张汀依、瞿剑峰、李直旭),科大讯飞(陈志刚),安徽淘云(刘庆升)
论文链接:https://wangjiaan.cn/files/SGSum.pdf
1. 摘要
SGSum(Sports Game Summarization)是一个大规模人工清洗的中文体育赛事摘要数据集。本数据集来源于新浪体育在线(http://match.sports.sina.com.cn/index.html) 中2012年至2020年期间的足球比赛数据,包含了7854场足球比赛的在线评论文本与对应新闻报道,其中每场新闻报道都经过了严格的人工清洗流程。该数据集的提出能够为体育赛事摘要的研究提供数据支持。
2. 体育赛事摘要
体育赛事摘要是一类特殊的文本摘要任务,旨在根据一场体育比赛的在线评论文本来生成对应的新闻报道。如下图所示,其中在线评论文本记录了整场比赛中解说员对当前赛事的实时讲解,平均长度高达2251.62字,且拥有口语化的特点。除此之外,每一句评论句还有对应的描述时间以及实时比分信息。而新闻报道则比较正规地记录了整场比赛的核心事件,能让人们更加方便、快速地回顾比赛。
我们还发现,在2012年至2020年期间的新浪体育在线足球赛事中,绝大部分的比赛都有在线评论文本,而仅有不到30%的比赛有着对应的新闻报道。因此探索如何根据在线评论文本产生新闻报道是一个非常有现实意义的研究方向。又因为在线评论文本拥有长文本以及口语化的特点使得该任务充满挑战性。
3. 数据集
为了支持和加速该任务的研究,我们构建了SGSum数据集。与以往工作相同,我们从新浪体育在线足球赛事中收集数据。然而我们发现,赛事新闻报道中往往含有大量噪声,有些新闻报道包含广告,有的新闻有着与历史相关的描述,例如:许多新闻会在一开始介绍本场比赛参赛双方的历史交战情况以及双方最近的状态等,这些信息均不能通过对应的在线评论文本得出。为了能够提升数据集的质量,与以往工作不同,我们制定了严格的人工清洗流程,以此来获得更高质量的数据。简而言之,SGSum体育赛事摘要数据集具有以下优点:
(1)SGSum从更多赛事中收集数据,其包含了7854场足球赛事的在线评论文本与对应新闻报道,是现有规模最大的数据集。约为此前最大规模数据集(SportsSum)的1.45倍。
(2)为了提升数据集的质量,SGSum对所有新闻报道采取了人工清洗,去除了与当前赛事无关的描述,例如:其他赛事的描述、广告以及与历史相关的描述。
4. 结语
为了进一步促进体育赛事摘要的研究,我们为社区贡献了一个新的体育赛事摘要数据集SGSum,该数据集是已知数据量最大且数据质量较高的相关数据集。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。