开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)

2021 年 9 月 30 日 开放知识图谱

OpenKG地址:http://openkg.cn/dataset/csdqa

开源地址:http://zscl.xjtudlc.com:888/CSDQA/

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:西安交通大学(王绍伟、张玲玲、杨祎、胡欣、秦涛、魏笔凡、刘均)



1. 摘要

CSDQA (Computer Science Diagram Question Answering)数据集是计算机科学领域几何图形类示意图问答数据集,由陕西省天地网技术重点实验室贡献。本数据集示意图来自教科书、百科、博客等教育场景,包含十二个类别共计1294张示意图,3494个问答对以及超过20000条对象信息标注。该数据集能为示意图问答等相关研究提供良好的数据支持。 

2. 示意图

示意图明确表达某个特定主题或概念,传递可推理的规则或逻辑信息,使用抽象的图形化符号而不是真实图片来呈现元素的一种表示。相比自然图像,示意图不包含阴影、纹理、背景等,视觉要素表达更加凝练简洁,包含丰富的信息。根据构成要素,示意图可划分为两类。已有研究主要集中于第一类:来自生物学、地理学等自然学科示意图,其对象主要由抽象化的动物、植物等事物构成,表达方式与自然图类似。本数据集聚焦于第二类:几何图形类示意图,其对象主要由圆形、矩形、箭头等符号组成,如图1所示。该类示意图抽象化程度更高,对象表达方式多样,包含复杂的逻辑结构,例如二叉树中根节点与叶节点间具有父子拓扑关系。理解该类示意图具有极大挑战,也是实现智慧教育等应用的重要基础。

图1 CSDQA全类别示意图样例
3. 数据集

示意图来源稀缺,为了收集到高质量的数据,CSDQA采取了多来源、半自动化的收集方式。针对教科书、百科等来源进行人工收集,针对网络爬取数据构建过滤器滤除低质量样本。

为了适应示意图多样的表达方式和复杂的逻辑,我们设计了多维度的数据集标注规则,包含:全局属性-对象属性-关系属性,如图2所示。其中全局属性宏观描述了示意图所表达的知识;后两者则更细粒度描述示意图中的对象和对象间的关系信息。

图2 CSDQA示意图属性标注样例

示意图问答任务是指:计算机在给定一张示意图和相关的知识文本内容下回答自然语言问题。在数据集中,知识文本是以是示意图类别为关键字爬取的维基百科相关信息。我们共设计了两种难度的问题。简单问题:计算机仅需要一次推理即可给出答案;复杂问题:计算机需要两次推理才能给出答案,在所有标注问题中,复杂问题所占比为22.98%。形式上,标注的问题还可划分为四选一问题和判断题,示例如图3所示。

图3 CSDQA示意图问答标注样例

相较于已有的示意图数据集,CSDQA的特点在于:

(1)CSDQA是首个包含高质量几何图形类示意图的数据集,填补了示意图数据集在高等教育领域的空白。

(2)CSDQA包含细粒度的标注信息和区分难度及类别的问答对,可适应多样化的示意图理解相关任务。

4. 结语及致谢

为推进课程领域示意图研究,我们提出了示意图问答任务,并为社区贡献了一个人工标注的计算机科学领域示意图问答数据集。在此,感谢西安交通大学刘均教授、张玲玲老师在数据集构建方案中提供的宝贵意见,感谢西安交通大学计算机科学与技术学院的杨祎、吴文俊、胡欣等同学在数据标注过程中提供的支持。



 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。


登录查看更多
0

相关内容

全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS源于国内两个主要的相关会议:中文知识图谱研讨会the Chinese Knowledge Graph Symposium (CKGS)和中国语义互联网与Web科学大会Chinese Semantic Web and Web Science Conference (CSWS)。 首届中文知识图谱研讨会于2013年在苏州举行,随后分别在武汉、宜昌成功举办第二次和第三次研讨会。CSWS首次会议于2006年在北京举办,随后的近十年里,逐渐成为国内语义技术领域的主要会议。新的知识图谱与语义计算大会将致力于成为国内知识图谱、语义技术、链接数据等领域的核心会议,并聚集了知识表示、自然语言理解、智能问答、知识抽取、链接数据、图数据库、图挖掘、自动推理等相关技术领域的重要学者和研究人员。
复旦发布首篇《多模态知识图谱构建与应用》综述论文
专知会员服务
134+阅读 · 2022年2月14日
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
71+阅读 · 2021年7月29日
专知会员服务
50+阅读 · 2021年7月10日
专知会员服务
38+阅读 · 2021年6月13日
专知会员服务
34+阅读 · 2021年6月8日
知识图谱构建技术:分类、调查和未来方向
专知会员服务
111+阅读 · 2021年3月1日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
ICCV 2021 | 新的去雪数据集CSD开源
极市平台
0+阅读 · 2021年10月22日
开源开放 | 高质量体育赛事摘要数据集SGSum(CCKS2021)
开放知识图谱
0+阅读 · 2021年9月10日
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
开源开放|CCKS2021入选开放图谱资源简介
开放知识图谱
0+阅读 · 2021年8月6日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Phase-aware Speech Enhancement with Deep Complex U-Net
VIP会员
相关VIP内容
复旦发布首篇《多模态知识图谱构建与应用》综述论文
专知会员服务
134+阅读 · 2022年2月14日
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
71+阅读 · 2021年7月29日
专知会员服务
50+阅读 · 2021年7月10日
专知会员服务
38+阅读 · 2021年6月13日
专知会员服务
34+阅读 · 2021年6月8日
知识图谱构建技术:分类、调查和未来方向
专知会员服务
111+阅读 · 2021年3月1日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
相关资讯
ICCV 2021 | 新的去雪数据集CSD开源
极市平台
0+阅读 · 2021年10月22日
开源开放 | 高质量体育赛事摘要数据集SGSum(CCKS2021)
开放知识图谱
0+阅读 · 2021年9月10日
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
开源开放|CCKS2021入选开放图谱资源简介
开放知识图谱
0+阅读 · 2021年8月6日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员