OpenKG地址:http://openkg.cn/dataset/mooper
头歌平台:https://www.educoder.net/ch/rest
开放许可协议:CC BY-SA 4.0 (署名相似共享)
贡献者:湖南智擎科技有限公司(黄井泉),国防科技大学(刘坤佳 曾维新 廖劲智 赵翔 唐九阳 戴傲)
MOOPer是一个大型在线开放实践数据集,由国防科技大学信息系统工程重点实验室贡献。MOOPer来源于大规模开放在线实践(Massive Open Online Practice,MOOP)这一概念,包含了2018-2019年间头歌平台(https://www.educoder.net)用户在线实践数据,其中用户与实践项目的辅助信息以知识图谱形式组织。
MOOPer数据集主要分为两个部分:交互数据与知识图谱。交互数据包含253万实践练习数据、2160万系统反馈数据以及1.5万论坛讨论数据。知识图谱包含11类实体,10类关系。MOOPer数据集结构如图1所示。
用户与学习材料的交互被分为三组:用户行为、用户反馈和系统反馈。
用户行为:专注于实践练习的过程——用户答题正误情况,尝试次数,以及是否参考了答案等等。详尽的交互记录将最大程度再现用户交互过程,从而为进一步研究提供了更全面的信息。值得注意的是,所有记录都是匿名的,以保护用户的隐私。
用户反馈:提供用户对交互过的实践练习的评分。显示了用户对不同难度和问题类型的学习材料的偏好。此外,还提供了他们在论坛中的讨论内容。闲聊内容可以用来调查他们的学习状况和学习满意度,而问答讨论则反映了他们在知识掌握上的“盲点”。此外,用户在论坛的活跃度也是推测其心理状态和学习方式的重要指标。
系统反馈:提供系统对用户提交结果反馈——他们的代码是否有语法错误,提交代码的编译结果,实际输出和预期输出之间的差异等等。此类信息可以用于了解用户的学习能力和知识掌握情况。
丰富的辅助信息在实际任务中对于提升模型性能非常有用。MOOPer提供了丰富的实体、关系与属性信息,包括实践项目的介绍说明和具体内容等。知识图谱的结构如图1左图所示。
学习资源之间存在自然的层次结构。一门课程可能包括几个章节和实践项目, 而一个实践项目由几个关卡组成,每个关卡又涵盖了不同的知识点。此外,不同课程可能会共享同样的实践项目,不同的关卡可能共享相同的知识点。这些相互引用进一步将层次结构扩展到图。
MOOPer提供丰富的交互数据和全面的辅助信息,不仅可以支持多种任务,还为后续对不同领域的任务和模型进行融合提供了数据支持。
Dropout Prediction 辍学预测。根据学生的早期在课程学习中的行为数据预测其放弃该门课程的可能性。
Knowledge Tracing 知识追踪。根据学生过去的答题情况对学生的知识掌握情况进行建模,从而得到学生当前知识状态表示的一种技术。
Recommendation 学习材料推荐。根据用户的交互记录对用户喜好进行个性化建模,为其推荐感兴趣的学习材料(如课程、章节、知识点、实训、关卡等)。
Intelligent Tutoring 智能导学评估。建模学习者知识状态,模拟人类的1v1教学为用户提供学习指导。
除此之外,由于MOOPer提供丰富的辅助信息知识图谱,因此可以支持不同任务的融合。可行的思路之一是将知识图谱表示学习与上述任务进行结合,例如可以将知识图谱嵌入(Knowledge Graph Embedding,KGE)、图神经网络(Graph Neural Network,GNN)、图卷积神经网络(Graph Convolution Graph)等算法与教育数据结合,使用辅助信息提升模型效果。
我们提出了MOOPer,一个以实践为中心的数据集,专注于在线学习中的实践过程,其中丰富的辅助信息被组织为知识图谱形式。灵活的数据组织形式使其可以支持教育领域多种数据挖掘任务,并且促进了这些任务与知识图谱研究的最新成果融合。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。