OpenKG地址:http://openkg.cn/dataset/csdqa
开源地址:http://zscl.xjtudlc.com:888/CSDQA/
开放许可协议:CC BY-SA 4.0 (署名相似共享)
贡献者:西安交通大学(王绍伟、张玲玲、杨祎、胡欣、秦涛、魏笔凡、刘均)
1. 摘要
CSDQA (Computer Science Diagram Question Answering)数据集是计算机科学领域几何图形类示意图问答数据集,由陕西省天地网技术重点实验室贡献。本数据集示意图来自教科书、百科、博客等教育场景,包含十二个类别共计1294张示意图,3494个问答对以及超过20000条对象信息标注。该数据集能为示意图问答等相关研究提供良好的数据支持。
示意图明确表达某个特定主题或概念,传递可推理的规则或逻辑信息,使用抽象的图形化符号而不是真实图片来呈现元素的一种表示。相比自然图像,示意图不包含阴影、纹理、背景等,视觉要素表达更加凝练简洁,包含丰富的信息。根据构成要素,示意图可划分为两类。已有研究主要集中于第一类:来自生物学、地理学等自然学科示意图,其对象主要由抽象化的动物、植物等事物构成,表达方式与自然图类似。本数据集聚焦于第二类:几何图形类示意图,其对象主要由圆形、矩形、箭头等符号组成,如图1所示。该类示意图抽象化程度更高,对象表达方式多样,包含复杂的逻辑结构,例如二叉树中根节点与叶节点间具有父子拓扑关系。理解该类示意图具有极大挑战,也是实现智慧教育等应用的重要基础。
示意图来源稀缺,为了收集到高质量的数据,CSDQA采取了多来源、半自动化的收集方式。针对教科书、百科等来源进行人工收集,针对网络爬取数据构建过滤器滤除低质量样本。
为了适应示意图多样的表达方式和复杂的逻辑,我们设计了多维度的数据集标注规则,包含:全局属性-对象属性-关系属性,如图2所示。其中全局属性宏观描述了示意图所表达的知识;后两者则更细粒度描述示意图中的对象和对象间的关系信息。
示意图问答任务是指:计算机在给定一张示意图和相关的知识文本内容下回答自然语言问题。在数据集中,知识文本是以是示意图类别为关键字爬取的维基百科相关信息。我们共设计了两种难度的问题。简单问题:计算机仅需要一次推理即可给出答案;复杂问题:计算机需要两次推理才能给出答案,在所有标注问题中,复杂问题所占比为22.98%。形式上,标注的问题还可划分为四选一问题和判断题,示例如图3所示。
图3 CSDQA示意图问答标注样例
相较于已有的示意图数据集,CSDQA的特点在于:
(1)CSDQA是首个包含高质量几何图形类示意图的数据集,填补了示意图数据集在高等教育领域的空白。
(2)CSDQA包含细粒度的标注信息和区分难度及类别的问答对,可适应多样化的示意图理解相关任务。
为推进课程领域示意图研究,我们提出了示意图问答任务,并为社区贡献了一个人工标注的计算机科学领域示意图问答数据集。在此,感谢西安交通大学刘均教授、张玲玲老师在数据集构建方案中提供的宝贵意见,感谢西安交通大学计算机科学与技术学院的杨祎、吴文俊、胡欣等同学在数据标注过程中提供的支持。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。