统计挖掘的一些事一些情(一)

2018 年 5 月 15 日 R语言中文社区

点击上方蓝色字体,关注我们

15

作者简介

浩彬老撕,R语言中文社区特邀作者。

个人公众号:探数寻理



在这里首先要感谢苍天,感谢亚里士多德,感谢维克托·迈尔·舍恩伯格,让“大数据”成为了年度热词,咱们统计学同仁终于体验了一把“农奴翻身做主人”!


在这两千多年的历史当中,咱们这里涌现出一批又一批的风流人物,如卡尔皮尔逊(公认的统计学之父),费舍尔(现代统计学的奠基人之一),贝叶斯(贝叶斯方法对当今的数据挖掘领域影响依然非常的广非常的大,另外概率统计学出现的“频率学派”和“贝叶斯学派”的至今争论的恩恩怨怨还在继续)、高尔顿(这位可是达尔文的表弟)、戈赛特(嗯,这位最早从事的可是酿酒行业,提出了著名的t分布)。


例如1920年,美国经济学家乔治泰勒就认为裙子长度和经济增长存在联系,提出裙边理论:“女性的裙长可以反映经济兴衰荣枯,裙子愈短,经济愈好,裙子愈长,经济愈是艰险”



虽然这些只是某一方面的应用,但是我们可以看到,广大人民群众对于利用数据的热情是大大的!



上面说的建立统计学习模型,简单是指利用一个或多个输入变量(一般也称为自变量,预测变量)通过拟合适当的关系式来预测输出变量(也称因变量,响应变量)的方法。其中f(x)是我们希望探求的关系式,但一般来说是固定但未知。尽管f(x)未知,但是我们的目标就是利用一系列的统计/数据挖掘方法来尽可能求出接近f(x)的形式,这个形式可以是一个简单的线性回归模型(y=a+bx),也可能是一个曲线形式(y=a+b(x的平方)),当然也有可能是一个神经网络模型或者一个决策树模型。


而对于上式中的随机误差项,这是指测试过程中诸多因素随机作用而形成的具有抵偿性的误差,它的产生因素十分复杂,可能是温度的偶然变动,可能是气压的变化,也可能是零件的摩擦。例如咱们在测量身高的时候,就可能因为测量人员的轻微手震带来的随机误差




虽然这些方法很有趣,但在此之前,我们还是要对这些方法有一些系统的划分



在这里,我们希望模型尽可能地精确,相反预测模型f的形式可能是一个黑箱模型(即模型的本身我们不能很好的解释或者并不清楚,我们更加关心这当中的输入和输出,并不试图考察其内部结构),只要能够提高我们的预测精度我们就认可达到目的了。一般认为,神经网络模型属于黑箱模型,如几年前Google X实验室开发出一套具有自主学习能力的神经网络模型,它能够从一千万中图片中找出那些有小猫的照片。在这里,输入就是这一千万张图片,输出就是对于这些图片的识别。


在这里,预测结果固然重要,但是我们也十分关心模型的形式具体是怎么样,或者借助统计挖掘模型帮助我们生成了怎样的判别规则。例如在银行业,我们希望通过客户的个人信用信息来评价个人的借贷风险,这就要求我们不但能够回答这个客户的风险是高是低,还要求我们回答哪些因素对客户风险高低有直接作用,每个因素的影响程度有多大。




迄今为止上面的讨论内容都属于有监督学习范畴,即对每一个自变量x都有一个因变量y一一对应,我们希望通过拟合预测模型,更好理解预测变量与响应变量之间的关系,例如分析个人信用信息评价信用风险,企业营销费用投入与销量的关系等等。


进一步地,对于有监督学习,响应变量属于定量变量(即连续性变量,如GDP,企业年销售额)的话,我们把它定义为回归问题,而响应变量属于定性变量的话(即分类型变量,如违约客户与不违约客户,患病与不患病),我们定义为分类问题。


而对于无监督学习,则只有自变量x,而没有y。例如我们能够获得零售企业当中每个会员的行为信息,我们可能希望通过无监督学习的方法(聚类)把会员划分为不同的客户细分群体(粉丝客户群,注重性价比客户群)。




大家都在看

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)


公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

登录查看更多
1

相关内容

统计学(Statistics)是研究收集、分析、解读、展示及组织(collection, analysis, interpretation, presentation and organization)数据的学科,通过量化地研究随机性,从而理解数据的产生机制,并进行判别、预测、优化、决策。统计学理论和方法是很多现代科学分支的支柱,其广泛的应用深刻地影响现代生活,具有代表性的应用领域包括: 生物/医学(生物统计学,基因统计学,生物信息学,制药学等)
社会学/环境学(社会统计学,心理学,人口学,空间统计学,环境统计学等)
工业工程学(质量控制,可靠性分析等)
经济学/金融学(精算学,金融统计学等)
工程学/计算机科学(统计学习,数据挖掘,信号/图像采样/处理等)
基础科学(统计物理学,统计化学等)
深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
195+阅读 · 2020年5月2日
缺失数据统计分析,第三版,462页pdf
专知会员服务
108+阅读 · 2020年2月28日
深度学习算法与架构回顾
专知会员服务
80+阅读 · 2019年10月20日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
浅谈贝叶斯和MCMC
AI100
14+阅读 · 2018年6月11日
条件概率和贝叶斯公式 - 图解概率 03
遇见数学
10+阅读 · 2018年6月5日
贝叶斯机器学习前沿进展
无人机
7+阅读 · 2018年1月26日
基于概率论的分类方法:朴素贝叶斯
Python开发者
8+阅读 · 2017年11月9日
从概率论到多分类问题:综述贝叶斯统计分类
机器之心
12+阅读 · 2017年9月28日
专栏 | 贝叶斯学习与未来人工智能
机器之心
10+阅读 · 2017年9月19日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
15+阅读 · 2019年6月25日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
53+阅读 · 2018年12月11日
VIP会员
相关VIP内容
深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
195+阅读 · 2020年5月2日
缺失数据统计分析,第三版,462页pdf
专知会员服务
108+阅读 · 2020年2月28日
深度学习算法与架构回顾
专知会员服务
80+阅读 · 2019年10月20日
相关资讯
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
浅谈贝叶斯和MCMC
AI100
14+阅读 · 2018年6月11日
条件概率和贝叶斯公式 - 图解概率 03
遇见数学
10+阅读 · 2018年6月5日
贝叶斯机器学习前沿进展
无人机
7+阅读 · 2018年1月26日
基于概率论的分类方法:朴素贝叶斯
Python开发者
8+阅读 · 2017年11月9日
从概率论到多分类问题:综述贝叶斯统计分类
机器之心
12+阅读 · 2017年9月28日
专栏 | 贝叶斯学习与未来人工智能
机器之心
10+阅读 · 2017年9月19日
相关论文
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
15+阅读 · 2019年6月25日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
53+阅读 · 2018年12月11日
Top
微信扫码咨询专知VIP会员