清华大学知识智能研究中心发布大规模MOOC知识资源库MOOCCube及在线学习行为预测挑战赛

2020 年 6 月 6 日 学术头条

大规模开放在线课程,又称慕课(英语:Massive Open Online Course/MOOC), 是一种针对于大众人群的在线课堂。自 2008 年诞生以来,它通过开放教育资源,已经服务了全球超过 1 亿人次的网络学习者。MOOC 强调知识的开放共享,其参与者不只是在校学生,更包括了其他年龄层的用户。因此其课程设计更注重于服务广泛的、需求多样的参与者;课程内容也更加多元化,不仅涵盖前沿的学科知识,也包含很多实用的职场、生活技能。

 

除了吸引经济学,教育学、心理学相关的研究,MOOC 这种大规模的交互式的知识分享平台更在近年来受到人工智能领域的关注,成为探索“AI+ 教育”应用和方向的一个良好的实验田。关于 MOOC 的知识挖掘,教学资源推荐,学生行为预测、干预等研究近年来如雨后春笋般涌现。为了进一步方便相关研究者,增加数据共享和推动行业标准化,清华大学知识智能研究中心联合学堂在线发布了大规模 MOOC 知识资源库 MOOCCube,旨在提供一个数据充分、高质量、高关联的 MOOC 数据资源以服务在线教育智能化研究。


在 MOOCCube 发布同期,清华大学联合学堂在线发布了 MOOCCube 学习行为预测挑战赛,将于 5 月底正式开始接受社会各界优秀选手报名组队。比赛数据来自 MOOCCube,要求参赛队伍针对真实教学场景中的学生行为问题,进行预测和分析。最终获胜的队伍将获得主办方提供的奖金。


MOOCCube 的结构


MOOCCube 收集了来自真实教学环境的数据,主要包括三个维度: 课程资源,知识概念,学生行为记录。其中,课程资源是 MOOC 的学习资源,一门课程一般由多个视频、学习资料等组成;学生行为则是收集的数十万用户的选课、视频观看等细节行为的记录,可以直接链接到课程资源部分。此外,MOOCCube 根据课程及学生资源、联合了多个外部知识库,如大规模跨语言知识图谱 XLORE, 维基百科,百度百科,学术知识服务平台 AMiner 等,构建了针对在线教育的大规模知识概念图谱,从而将以上两种类型的数据资源有机结合,使得 MOOCCube 内部的实体间关联非常丰富。


MOOCCube 不仅包括课程、概念、学生等基础实体,更包含授课教师、开课机构、概念的相关论文等相关实体;同时,还提供了大量的课程内容语料、概念上下位、先后修关系、用户的画像等资源。研究者可以通过对这些资源的不同组合使用,给诸如学生行为预测、智能知识推荐、课程概念挖掘、先后修关系推荐等多样的相关任务生成数据集,以支持所关注的 MOOC 特定任务研究。MOOCCube 的结构图如下所示:


MOOCCube 结构图

MOOCCube 的特性


与其他在线教育相关知识库、数据集相比,MOOCCube 更加专注于同一个慕课平台下的细节数据,尤其重视知识体系的梳理以及包含实体间的关联性,而非是简单的资源收集和对齐,具体来说,本次发布的 MOOCCube 具有以下特点:
 
丰富的课程学习资源:MOOCCube 中收录的课程,除了保留课程以及授课教师、开课机构等整体信息之外,还提供了课程所包含的每一个具体视频以及视频的字幕文本语料。这些文本语料根据讲课情况,精确到毫秒保留了实际视频中的字幕对应,研究者可以从这些数据中更准确地完成课程内容的挖掘和链接。
 
完整的概念术语体系:从课程资源的文本出发,MOOCCube 进行了课程知识、学科知识的挖掘和分类。除了抽取来自课程本身的知识点之外,MOOCCube 还根据课内知识,利用外部知识库进行课程的知识补充。这些知识不仅保留概念本身,还包含其释义,发布来源,学科分类等相关信息。对于每一个知识概念,MOOCCube 提供了来自学术知识挖掘平台 AMiner 推荐的与其最相关的 10 篇论文,作为进一步的资源补充。


MOOCCube 同时构建了概念间的上下位关系、先后修关系图谱,由此为概念之间的关系挖掘以及知识驱动的应用研究提供背景知识。这些概念间的关系在挖掘后经由众包标注、专家审核阶段,在保证规模的同时注重质量。
 
精确的用户行为记录:由于 MOOCCube 采用来自同一平台的数据,其用户的行为记录具有较大的关联性可供挖掘,即同一用户的多个课程中、多个学习资源中的行为都被归纳和整理到其行为记录数据中。MOOCCube 记录了用户细节的学习行为,如对于特定课程视频,用户观看视频的范围精确到秒,通过对细化的学习行为进行分析,可以为提供精准的学习建议提供帮助。为方便研究使用,MOOCCube 的用户行为全部经过了匿名化处理,完成了数据脱敏。
 
MOOCCube 的大规模与多维度:MOOCCube 包含 706 门真实在线课程、38,181 个教学视频、106,056 个概念、199,199 名 MOOC 用户的数十万选课、视频观看记录,一个由概念间的先后修,上下位等关系的概念图谱以及包含数十万篇与课内概念有关的学术论文资源的补充资源库。与目前已公布的其他在线教育相关数据集相比,MOOCCube 不仅包含的数据规模更大,而且提供了更多维度的数据,以下表格中展示了 MOOCCube 的数据规模,维度与相关数据集的对比:


MOOCCube 的数据规模

使用 MOOCCube

目前,MOOCCube 的数据已经向全社会公开资源,团队欢迎各界对在线教育有兴趣的研究者下载数据使用。其资源目前发布于 THU-MOOC 团队的网站下,发布链接为 http://moocdata.cn/data/MOOCCube,链接中包含了更多关于此资源的介绍和说明。
 
对于数据的来源,收集,标注等相关工作,更多内容请关注 ACL2020 的论文: MOOCCube: A Large-scale Data Repository for NLP Applications in MOOCs 
论文下载链接: 

https://lfs.aminer.cn/misc/moocdata/publications/ACL20_Yu-et-al-MOOCCube.pdf


挑战赛规则


本比赛包括两个赛道:
 

赛道一:学生学习行为预测

已有研究表明,虽然用户参与 MOOC 学习的热情很高,但是中途退课或放弃学习的行为占比极高,如何根据用户学习行为预测未来的退课行为是进行有效教学引导的一个重要挑战。本赛道提供了用户学习中的细节行为信息,连同课程的知识概念体系,学生学习行为预测的目标是预测用户对于指定课程的退课行为。
 
赛道二:学生做题正确性预测
做题和考试是衡量检验学生知识掌握水平的重要方式。在 MOOC 时代来临的当下,如何更好地自动进行学生知识的评估是一个重要的挑战。尤其是 MOOC 中,学生的做题行为远不如视频观看等其他行为丰富,能否利用 MOOC 中学生的学习行为,去衡量学生的知识水平,从而预测学生对于特定问题的回答情况呢?本赛道提供了 MOOCCube 中的知识体系,做题记录,学习行为记录等诸多信息,参赛选手的任务是预测用户对于指定的题目,是否能够回答正确。
 
以上竞赛将于本月底正式开始组队参赛环节,赛事奖金丰富,欢迎社会各界优秀选手参赛,为解决实际在线教育中的难题提供优质解决方案!
 
评价方法与赛程安排详见如下赛事主页:
赛道一:https://www.biendata.com/competition/mooccube_1/
赛道二:https://www.biendata.com/competition/mooccube_2/

 


点击阅读原文,查看更多精彩!

登录查看更多
10

相关内容

 第八届中国科技大学《计算机图形学》暑期课程课件
专知会员服务
54+阅读 · 2020年3月4日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
支持个性化学习的行为大数据可视化研究
2019语言与智能技术竞赛报名开启
中国计算机学会
16+阅读 · 2019年2月26日
基于MOOC数据的学习行为分析与预测
计算机研究与发展
6+阅读 · 2017年10月11日
报名 | 知识图谱前沿技术课程(暨学术交流)
PaperWeekly
15+阅读 · 2017年7月10日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
3+阅读 · 2018年10月11日
Arxiv
7+阅读 · 2018年1月10日
VIP会员
Top
微信扫码咨询专知VIP会员