数据挖掘入门与实战 公众号: datadw
声明:本文根据慕课网公开数据爬取,仅作为数据分析学习参考。
本文数据来源 慕课网,共750条记录,使用Python的scrapy爬虫框架,爬虫代码,及scrapy框架的详细使用步骤,存储mysql,将在明晚本公众号 datadw 分享。
本次分析使用数据情况如下:
慕课网是一个在线教育培训网站,根据艾瑞PC数据查询,月均IP在200万左右,以16至24岁学生或初入职场的年轻人为主,30岁以下占到85%。
其主要用户分布在沿海,华中,东北,西北地区居然是空白,未来增长空间还是很大的。
先看课程构成:
统计到69个课程类别,开课门数较多的类别排列在图的左上角,前十类别的开课数依次为:
由此看出慕课网偏重于设计基于移动互联网的课程产品。
再看看课时分布:
网站内所有课程免费学习,但多数课程学时较短,95%的课程在5小时以内,课时在10小时以上的仅占1%,说明以“快餐”学习为主。其中课时最长的课程为“oeasy教你玩转css禅意花园”,总共27个小时。 该课程主页如下,综合评分 10分(满分)。
10小时以上的课程也就6门,主要为前端技术、设计方面。
接下来看一下课程难度分布:
75%的课程属于中、高级,且多数课程时长在5小时内,短时间的学习也就了解了解体系框架,蜻蜓点水。
这么多课程,哪一门报名学习的人数最多?请看:
多数课程学习人数都在一万以上,占到85%,其中十万以上的课程51门,课程所属类别从多到少排序如下,看来Java还是深受大众喜爱。
来看看前十的课程学习人数排行:
有没有看到商机,哈哈。。。几十万人都在学习入门课程,身边的小白还多着呢,现阶段正是培训行业春天!
来看看最受欢迎的这门课:
这门课程总共9章,9个小时学完,入门级,对于外行人了解网页结构与设计是有帮助的,毕竟70多万人学习了呢~
接下来看看课程的评分分布:
好评课程还是挺多的,96%的课程评分在9分以上,所有课程平均评分9.6,其中评分为10分的课程有58门,按课程的学习人数前十排序如下:
猜想一下,课程的评分跟啥有关系呢?
上面两图中,课程难度接近等边三角形,说明课程难度对评分没有影响,而课程时长存在不等边关系,说明评分与课程时长有一定联系。图中显示课程时长越长,获得评分较高。
最后关注一下大数据方面,共有19门课程,涵盖底层环境搭建、数据处理、数据可视化,而且大部分还都是入门级、短课时。即便如此,学习人数上万的课程依然占了大多数。
现在看来,中、高端等进阶课程现在还存在很大的需求缺口~
爬下来的数据还有很多信息可以挖掘,比如课程简介文本有何特点,课程的学习人数与课程简介、课程标题的关系,这些需要文本挖掘技术支持;还可以从开课数、学习人数去验证“什么才是世界上最好的语言”、各个分类课程里面学员技能的等级分布,如果要新开一门课程,能否预测该课程的学员人数等等,时间有限,待有心人去发掘。明天分享怎么样用scrapy爬虫去爬取这些数据。
人工智能AI与大数据技术实战
搜索添加微信公众号:weic2c
长按图片,识别二维码,点关注
数据挖掘入门与实战
搜索添加微信公众号:datadw
教你机器学习,教你数据挖掘
长按图片,识别二维码,点关注