开源开放 | 高质量体育赛事摘要数据集SGSum(CCKS2021)

2021 年 9 月 10 日 开放知识图谱

OpenKG地址:http://openkg.cn/dataset/sgsum

GitHub:https://github.com/krystalan/SGSum

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:苏州大学(王佳安、张汀依、瞿剑峰李直旭),科大讯飞(陈志刚),安徽淘云(刘庆升)



论文链接:https://wangjiaan.cn/files/SGSum.pdf

1. 摘要

SGSumSports Game Summarization)是一个大规模人工清洗的中文体育赛事摘要数据集。本数据集来源于新浪体育在线(http://match.sports.sina.com.cn/index.html) 中2012年至2020年期间的足球比赛数据,包含了7854场足球比赛的在线评论文本与对应新闻报道,其中每场新闻报道都经过了严格的人工清洗流程。该数据集的提出能够为体育赛事摘要的研究提供数据支持。

2. 体育赛事摘要

体育赛事摘要是一类特殊的文本摘要任务,旨在根据一场体育比赛的在线评论文本来生成对应的新闻报道。如下图所示,其中在线评论文本记录了整场比赛中解说员对当前赛事的实时讲解,平均长度高达2251.62字,且拥有口语化的特点。除此之外,每一句评论句还有对应的描述时间以及实时比分信息。而新闻报道则比较正规地记录了整场比赛的核心事件,能让人们更加方便、快速地回顾比赛。

我们还发现,在2012年至2020年期间的新浪体育在线足球赛事中,绝大部分的比赛都有在线评论文本,而仅有不到30%的比赛有着对应的新闻报道。因此探索如何根据在线评论文本产生新闻报道是一个非常有现实意义的研究方向。又因为在线评论文本拥有长文本以及口语化的特点使得该任务充满挑战性。

3. 数据集

为了支持和加速该任务的研究,我们构建了SGSum数据集。与以往工作相同,我们从新浪体育在线足球赛事中收集数据。然而我们发现,赛事新闻报道中往往含有大量噪声,有些新闻报道包含广告,有的新闻有着与历史相关的描述,例如:许多新闻会在一开始介绍本场比赛参赛双方的历史交战情况以及双方最近的状态等,这些信息均不能通过对应的在线评论文本得出。为了能够提升数据集的质量,与以往工作不同,我们制定了严格的人工清洗流程,以此来获得更高质量的数据。简而言之,SGSum体育赛事摘要数据集具有以下优点:

(1)SGSum从更多赛事中收集数据,其包含了7854场足球赛事的在线评论文本与对应新闻报道,是现有规模最大的数据集。约为此前最大规模数据集(SportsSum)的1.45倍。

(2)为了提升数据集的质量,SGSum对所有新闻报道采取了人工清洗,去除了与当前赛事无关的描述,例如:其他赛事的描述、广告以及与历史相关的描述。

4. 结语

为了进一步促进体育赛事摘要的研究,我们为社区贡献了一个新的体育赛事摘要数据集SGSum,该数据集是已知数据量最大且数据质量较高的相关数据集。



 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
0

相关内容

体育,又称体育运动或简称运动,是人们遵循人体的生长发育规律和身体的活动规律,通过身体锻炼、技术、训练、竞技比赛等方式达到增强体质,提高运动技术水平,丰富文化生活为目的的社会活动。 「体育」原指在学校中开展的一项促进参与者身体发展的教学活动,现在由于其广泛使用,在日常生活中已不再和运动一词做明显区分。
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
21+阅读 · 2020年8月28日
【人大】图实现算法综述与评测分析
专知会员服务
37+阅读 · 2020年4月28日
开源开放 | 中国近代历史人物知识图谱
开放知识图谱
2+阅读 · 2021年12月3日
OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE
开放知识图谱
8+阅读 · 2021年11月1日
开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
开源开放|CCKS2021入选开放图谱资源简介
开放知识图谱
0+阅读 · 2021年8月6日
ACL 2021 | PENS: 个性化新闻标题生成数据集
微软研究院AI头条
0+阅读 · 2021年8月4日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月17日
Chinese Idiom Paraphrasing
Arxiv
0+阅读 · 2022年4月15日
Synthesizing Informative Training Samples with GAN
Arxiv
0+阅读 · 2022年4月15日
Arxiv
25+阅读 · 2022年1月3日
Arxiv
24+阅读 · 2021年1月25日
VIP会员
相关资讯
开源开放 | 中国近代历史人物知识图谱
开放知识图谱
2+阅读 · 2021年12月3日
OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE
开放知识图谱
8+阅读 · 2021年11月1日
开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
开源开放|CCKS2021入选开放图谱资源简介
开放知识图谱
0+阅读 · 2021年8月6日
ACL 2021 | PENS: 个性化新闻标题生成数据集
微软研究院AI头条
0+阅读 · 2021年8月4日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员