超实用的论文笔记|改进的基于校园大数据的大学生职业选择预测

2018 年 6 月 6 日 FCS

点击蓝字

关注我们

    自从我们FCS微信公众号推荐了《Advanced forecasting of career choices for college students based on campus big data(改进的基于校园大数据的大学生职业选择预测)》一文后,很多读者对该文表示了极大的兴趣。今天,我们分享一位读者给我们带来的一篇通俗易懂的论文阅读笔记。如果您也同样对这篇论文感兴趣,或者也想把您阅读我们期刊论文的感受分享给更多的小伙伴,欢迎在文后留言或者与我们联系。

本文作者:吴家熙

北京航空航天大学计算机学院

01

引言

       职业方向选择一直是困扰青少年的一个问题,传统的职业评估通过问卷调查来解决这一问题。但是由于一些内在的因素和心理原因,学生们可能很难认清自己的情况,问卷的结果可能并不能完全反映其内心状态。

       本文重点在于提出了一个数据驱动的计算框架,根据学生在校园内外的行为来预测毕业后学生的职业选择,从而在职业咨询和指导方面发挥重要作用。

        “自我感知”理论认为,通过观察自己的行为举止来推断自己的心理状况是形成自我概念的主要方式。尽管许多学生的行为都是普通的、模棱两可的、难以翻译的,我们仍可以将其作为诊断心理问题的线索。

Fig1. Am I confident ?---- self-perception theory[1]

      现如今许多学校都有了先进的信息管理系统,通过简单的一张校园卡就能轻松有效地搞定学习和生活。而当学生们和系统进行交互时,例如就餐、购物、借书和上课等数据都会被不断地实时记录下来。该数据的急速增长为我们了解学生行为提供了可能。

       就如上述所言,学生的行为数据十分庞大且难以量化评估,该如何转变成我们可以用于计算的特征数据呢?根据心理学研究结果,作者调研了四种影响职业选择且具有代表性的行为特征:


1. 来自于课程记录的专业技能精通程度评估;

2. 吃早餐、去图书馆以及洗澡的行为规律性;

3. 表现在借书记录上的兴趣和爱好;

4. 通过日常消费记录评估出的家庭经济状况。


       作者在来自超过四千名学生的真实数据上,通过提取以上特征,进行了针对职业选择问题的多分类预测模型建立。而至于分类结果可以划分为以下四种:出国留学、找工作、国内继续深造和其它。

2

特征工程

       本文最重要的便是作者如何将混杂模糊的数据提取为可计算的、互不干涉的有效特征。

2.1 专业技能精通程度评估

      该项特征来自于学生的课程记录,其中最主要的便是学生在这门课的成绩。然而在数千门课程的数据下,如何表示这一稀疏特征,这将是一个难题。另外,许多专业技能可能是由多门课程共同决定的,比如“机器学习”的精通程度就可以用“概率统计”、“线性代数”、“数学分析”等几门课程共同决定。因此作者使用了矩阵分解的方法来进行数据降维和特征提取,

将原本M 个学生,S 门课程的MxS 形式的稀疏矩阵课程成绩数据降维到MxK 大小矩阵。

Fig2. matrix factorization[2]

2.2 行为规律程度

       责任心通常与工作和学习中的表现成正相关,而有责任心的人一般更倾向于自律。自律可以通过日常行为的规律性来反应,因此本文认为行为规律性有助于学生对职业选择做规划。作者尤其关注吃早餐、去图书馆和洗澡的规律性。

       本文使用各行为发生概率的信息熵来作为评估结果。将一天划为n 个时间间隔,T = {t1,t2, . . . , tn},对于任意行为v∈V ={“早餐”, “图书馆”, “洗澡”},在时间间隔ti 内发生的概率为:

       其中nv(ti)是行为v 在时间ti 时发生的次数,信息熵计算如下:

2.3 读书倾向兴趣

       课程外阅读是学生们扩展知识的一大途径,因此图书馆借书记录可以反映学生的兴趣倾向,而这也会影响职业选择。按单本书分类则维度太高,因此考虑使用类似上文中提取专业技能精通程度的降维算法。但因为结果可能更在意借书历史的某些信息,而和未来职业选择无关,此处改进而采用了一个有监督的算法,详细过程过长,有兴趣请参考原文。

2.4 家庭经济状况评估

       采用问卷的形式可能并不能得到贴切的结果,因为有的学生可能为了获得更好的经济援助而胡诌家庭情况,所以从学生的消费记录中评估家庭经济情况是一个不错的选项。作者的侧重点在于学生们在食堂和超市的消费记录。

       可以使用的数据以时间序列储存,分别为较短时间间隔的就餐、购物支出序列以及每日总支出序列。对于这三个序列,每一个都能得到以下七个特征:最小值,最大值,中位数,平均数,四分位距,标准差以及峰度。其次还能得到周末和工作日消费的比值。最后一项特征来自于FFT(快速傅里叶变换)。首先将长为n 的原数据[x1, x2, . . . , xn]减去平均值得到[ ˜x1, ˜x2, . . . ,˜xn],最后一项特征Energy 定义如下:

     通过以上方法,经济状况领域总计能得到3x(7+1+1)共27 个特征。

3

实验结果

      作者提取出的特征数据按学期可以分为六段,分别将这六段输入到六个独立的基学习器上,其上使用Adaboost 得到结果。同时因为各基学习器输入没有交集,其本身也可以用Adaboost算法。

      实际数据规模如下: 共计4,246 名学生,13,122,696 次消费记录,其中含6,875,698 次食堂消费记录。租过172,894 本书,产生336,238 次借书记录。共1,072 门课程,有276,588 个课程成绩记录。

       作者在选择不同算法作为基学习器时五折验证结果如下:

Fig3. The comparison of different classification algorithms

       在完全随机情况下结果为0.25,按出现最多类算为0.44。这表明学生职业选择是可以通过其学习和生活行为习惯预测的。

      选择表现好的随机森林用于后续实验,本文评估了各类特征在做预测时的重要性如下:

Fig4.Importance of four types of features

       

       这表明四类特征对于职业选择预测都有明显影响且专业技能精通程度影响最大。

       而在分别使用专业技能、规律性以及读书兴趣作为输入特征,依次使用六个学期的数据进行实验时,结果表明越接近毕业精度越高。

   Fig5.The precision of each semester


参考资料来源:

[1].https://www.theguardian.com/lifeandstyle/2012/oct/05/change-your-life-self-perception-theory

[2].https://blog.csdn.net/GZHermit/article/details/73920755

注:本文为该读者的阅读笔记,未经原论文作者和FCS期刊审读。仅供广大读者参考。

了解原论文内容,请点击下方链接:

改进的基于校园大数据的大学生职业选择预测 2018,12(3):494-503




Frontiers of Computer Science



Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社出版、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为李未院士,执行主编为熊璋教授和周志华教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。




长按二维码关注Frontiers of Computer Science公众号

登录查看更多
0

相关内容

FCS:Frontiers of Computer Science。 Explanation:计算机科学前沿。 Publisher:Higher Education Press。 SIT: http://dblp.uni-trier.de/db/journals/fcsc/
专知会员服务
121+阅读 · 2020年3月26日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
78+阅读 · 2020年3月4日
CMU博士论文:可微优化机器学习建模
专知会员服务
54+阅读 · 2019年10月26日
在线学习体验影响因素结构关系探析
MOOC
7+阅读 · 2019年3月20日
基于面部表情的学习困惑自动识别法
MOOC
10+阅读 · 2018年9月17日
教你用机器学习匹配导师 !(附代码)
数据派THU
3+阅读 · 2018年5月17日
已删除
将门创投
3+阅读 · 2018年4月10日
基于MOOC数据的学习行为分析与预测
计算机研究与发展
6+阅读 · 2017年10月11日
Arxiv
14+阅读 · 2020年1月27日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
10+阅读 · 2018年2月9日
VIP会员
相关资讯
在线学习体验影响因素结构关系探析
MOOC
7+阅读 · 2019年3月20日
基于面部表情的学习困惑自动识别法
MOOC
10+阅读 · 2018年9月17日
教你用机器学习匹配导师 !(附代码)
数据派THU
3+阅读 · 2018年5月17日
已删除
将门创投
3+阅读 · 2018年4月10日
基于MOOC数据的学习行为分析与预测
计算机研究与发展
6+阅读 · 2017年10月11日
相关论文
Arxiv
14+阅读 · 2020年1月27日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
10+阅读 · 2018年2月9日
Top
微信扫码咨询专知VIP会员