你使用过哪些数据分析的方法?

2019 年 5 月 6 日 大数据技术

来自公众号:接地气学堂

有同学问:陈老师,每次被面试都被问“你使用过哪些数据分析的方法”。结果都感觉答不上来。我回答做了相关分析、回归分析、聚类分析、因子分析又经常被人怼。所以到底数据分析有什么方法?为啥我在做数据分析,却感觉没什么方法?

 

答:首先,相关分析、回归分析、聚类分析、因子分析的名字叫XX分析,但它们是统计学方法,只是数据分析的工具,不是解决问题的全部办法。很多同学一看到名字叫分析,就想当然的以为我只要按这些XX分析的代码跑一遍就算分析了,这种行为经常会被真正懂行人怼。

 

就举个最简单的例子,所谓相关分析,很多同学就是算了个相关系数。可统计上的相关系数与业务中的相关关系是两码事。我家门前的大树年年都在长,中国GDP也年年在涨,两列数据算个相关系数哇塞0.99P值小于0.05,所以我家门前的树是我中华龙脉,我要发财啦!——不要笑,脱离了业务意义去做统计模型,做出来的笑果(我没打错)就是这样的。

 

所以回答这个问题,要回到数据分析到底解决哪些业务问题上去。我们之前分享过,数据分析可以解决的是:

  1. 是多少(数据描述状况)

  2. 是什么(树立数据标准)

  3. 为什么(探索问题原因)

  4. 会怎样(预测业务走势)

  5. 又如何(综合判断状况)

 

其中问题1是用数据描述问题,把问题量化。问题2345都需要探索-假设-检验-总结的循环性的过程。真正服务于业务的时候,只要熟练掌握了量化-探索-假设-检验-总结的循环,就能完成一个分析。无论是企业里的经营问题,还是个人感情、生活各种疑难杂症莫不如此。

 

然而,这么说面试官肯定不满意。他们还是期待着你说出一些具体名词的。因此人们总会发明一些新词,比如什么AARRR法,矩阵法,切割法,杜邦分析法等等,甚至还有懒省事的干脆叫业务法(是啊,肯定是业务法啊,不结合业务分析啥)。经常把人都听得头晕了。这里我们结合数据分析能解决的问题,梳理下这些方法。

 

属于“是多少”的方法

 

“是多少”指数据描述状况。如果只用1个指标就能描述清楚状况,比如身高、年龄这种,是没有什么分析方法的。但是如果指标很多,就会涉及到选择哪些重点指标,以什么方式展示这些指标。于是,就有了很多描述性方法。比如一些常见的:

 

AARRR:互联网行业增长黑客理论的五个大指标。需要注意的是,实际用的时候,还有很多二级三级小指标,绝不是五个指标就完事了,切记。而且AARRR都是围绕用户来说的,实际上也只适用于用户运营,不是所有业务都能硬插这五个指标的。

 

漏斗法:只要一个流程环节数》2,都能摆一个漏斗出来,用来衡量流程转化率的指标。最典型的比如互联网广告(站外页-落地页-促进页-转化页),比如B2B销售的售前流程也很长(销售线索-初次接触-沟通需求-展示demo-议价-竞标-签署合同),也能撸出来一个漏斗。

 

杜邦分析法:原本是财务分析中用来衡量企业经营效益与财务指标的方法,现在也被推广开,用来拆解经营指标。比如销售金额=用户数*付费率*客单价。然后再层层拆解用户数,客单价构成。有意思的是,杜邦分析法拆出来的逻辑图会很复杂,所以很多人为了提高逼格直接把它叫“分析模型”……

 

量收利进销存:零售行业,无论线上线下都是这六个关键指标。和AARRR一样,有一堆二级三级小指标。

 

要注意:以上都是描述问题的方法,并没有解答问题,比如看到用户流失率75%所以呢?所以75%是好还是坏呢?描述+标准才能对问题做判断。所以才有了下边“是什么”的方法。

 

属于“是什么”的方法

 

“是多少”指树立数据标准的方法。寻找标准可以基于业务经验,但业务经验也需要数据进行验证才知道是对的错的。因此,产生了“是什么”的两大类方法:探索标准的方法,验证标准的方法。

 

探索标准的方法,和到底要对几个指标进行探索有关。比如只用1个指标的方法有:二八法、十分位法、切割法。名字听着玄妙,实际上就是切割线摆在哪。当我们没有信心的时候,可以根据二八定律,把切割线摆在20%,也可以先拆10组或者若干组出来,探索下摆在哪里合适。比如用2个指标,就是所谓矩阵法,其实就是把两个指标交叉,分出四个象限,看看四类有没有明显特点。

 

如果超过3个指标,一般不建议直接交叉。即使只有3个指标,每个指标分3类,也会产生3*3*3=27类出来,在业务上太复杂了。这时候会用一些统计学的方法。在无标注的情况下可以用Kmean聚类进行分类探索,在有标注情况下可以用决策树。是滴,大家看到了,统计学/机器学习的方法只是解决分析问题的工具,就是这个意思。

 

找出来标准以后要进行验证。好的标准要能清晰区分不同群体。比如女生说要相亲的男生身高180。那意味着179的人她真的不要,181她不会立即拒绝。如果176的她照样接受,就说明画出来标准没有区分度,要么是标准划分出了问题,要么就是做标准的指标压根就找错了。

 

需要注意的是:有没有用数据找标准,有没有验证过业务部门的标准,是从取数到分析的分水岭。很多同学觉得自己没有做分析,不知道分析的是什么,核心原因就是手上只有数据没有标准。比如跑出来一个:本月底销售额3000万,可3000万又怎样呢?不知道。然而渠道部一看到月底销售额3000万,就大喊一声:肯定是华东大区藏了业绩,下个月头他们至少还要吐500万出来!这就是有没有评价标准的差距。所以平时工作中就得养成强烈的标准意识,这样才能进行真正的分析。

 

属于“为什么”的方法

 

“为什么”指探索问题原因。一提探索原因,大家脑子自然蹦出来的就是相关分析……往往会以为计算个相关系数,丫就真的相关了。于是产生了开篇的“龙脉梗”。实际上,想仅通过数据分析找原因,是相当困难的。往往要内部数据+外部调研+业务判断+测试,共同努力锁定原因。这一点切记切记,面试的时候经常有同学在这里吹牛吹大了,被怼得体无完肤。

 

正因为很难仅通过数据锁定原因,所以通过数据分析找原因往往是一个系统的过程。需要做齐量化-探索-假设-检验-总结全套流程。严格来说,这里不是靠某个分析方法得出的结论。但是考虑到面试官还是很想听几个方法的名字的,我们可以这么说:


找原因的方法可以分作经验推断与算法推断两种。经验推断就是经典的归纳法与演绎法,具体到数据操作上,就是分组对比(归纳原因)和趋势推演(演绎判断)。比如问为什么销售额下降,用归纳法就是将每一次销售下降的时候,相关症状指标列出来,然后做分组对比,看哪个因素影响下跌的厉害。用演绎法,就是假设销售下降就是因为人员流失/引流产品不给力/季节因素导致的,那么我做了相应调整:人员调动/上新品/等季节过去,以后应该销售能回升。实际中,当然是两种方法结合,不断逼近真相。

 

算法推断,不是靠人工智能阿尔法大狗子汪汪一叫就把原因叼回来,而是通过指标的计算发现潜在问题点,然后回归到业务里去验证。你可以简单理解为把上边经验推断的过程,量化为一堆指标的计算。比如相关分析虽然不能证明因果,但是能提供分析假设,拿到假设以后我们就能进一步验证,到底这种关系是真相关还是伪相关。因此,做分类的模型与计算相关系数的统计方法,理论上都能用来做这种探索。

 

属于“会怎样”的方法

 

“会怎样”指预测业务走势。一提到预测,大家脑子里会自然蹦出来很多很多统计学/机器学习的算法。具体的操作展开写内容太多,这里仅帮大家梳理下逻辑。细节可以后边慢慢更,或者大家自己去看相关统计学/机器学习文章。

 

首先大类上,预测分定性预测和定量预测两种。定性方法是基于业务经验和业务假设,来推测未来走势。有两种推测法,一种是找一个类似的业务场景进行推测。比如马上上一款新产品,根据过往的经验,一般上市后T+N周销售走势应该是XX,所以类似的也该是这样。是所谓经验推断法。


另一种是基于业务假设,比如新产品上市,假设推广部门传播力度为X,假设销售部门配备人员为Y,假设供应链的产品到货率是Z,之后套入杜邦分析法的模型进行计算,综合预测销量。定性预测并不全是拍脑袋,因为定性假设选取的场景和参数可以通过分析来获得,并不是完全没有依据。同时,对业务部门而言,定性预测时责权划分非常清晰,每个部门要做到多少业绩一清二楚,反而容易推动执行。

 

定量的方法又分为基于时间的时间序列法,与基于因果关系的算法两类。比如预测店铺销量,如果用时间序列法,则根据过往1-3年销量数据来预测未来的销售数据。如果基于因果关系,则要引入与销售结果相关的变量,比如店铺位置、店铺产品线、产品价格、顾客评价、顾客人数等等。定量预测看起来很复杂,很多同学会直观的认为复杂就是牛逼的。可实际操做过几次就会发现,时间序列法对于环境变化不敏感,容易被突发事件冲击。因果关系法可能采集不到足够的数据,导致模型预测精度很难上去

 

所以在工作中真正操作的时候,要因地制宜选方法。在面试的时候,要客观陈述建模效果。又有很多同学本能的认为,模型在测试集上跑出来的准确率越高越牛逼。连过拟合这种问题都忘了。结果在面试的时候被面试官怼穿,这都是很常见的哈。说话谨慎不是问题,被怼穿了才是。

 

属于“又如何”的方法

 

又如何指综合判断状况,下分析结论。如果判断标准很清晰,判断的指标很少,那下结论是很快速的,不需要复杂的分析。比如女生说我就是不喜欢秃头的男生,那就看照片一票否决,来的非常爽快。这里不需要分析。但当牵扯指标很多,指标形态很复杂的时候,就很难决定了。比如小姐姐说我想要一个男的对我好(行为指标)有上进心(心理指标)有发展潜力(预测值)真心爱我(恋爱原因),这要求一出,就是个非常复杂的判断。所以,“又如何”是分析最后一步,因为往往做判断,需要做一大堆前期工作。需要搞掂了数据、搞掂了标准、了解清楚原因,做了预测以后,才知道怎么下结论。

 

在复杂判断中,有主观法和客观法两种。主观法就是基于人工判断(专家判断),只不过打分方式有很多种,直接打分再赋权重的往往叫专家法,打一个矩阵评分再计算的叫层次分析法(AHP)客观法可以通过因子分析(用方差解释率做权重)神经网络(算法训练权重),这样不依赖专家打工。

 

实际工作中,做评估的最大敌人是没标准,或者标准没节操。看到销量下降就试图甩给没有数据的外部因素,或者甩给目标定得太高,这样的话分析就没法做了。做评估第二大敌是所谓“业务常识”,经常有业务部门跳出来“你做过业务吗?老夫从业10年都没见过这样的”。做评估的第三大敌是领导意见,领导就是不想下这个结论,你咋办?只能回来改ppt啊。所以你看,做评估的算法有很多,真正用起来少,还真不能怪我们没本事。

 

以上就是对常用方法的简单总结。恭喜坚持到这里的同学,上述总结的思维导图如下,大家可以收藏了。不过这里只归纳了文章中提及的一些内容,可能有遗漏,这里也没有结合具体业务场景,大家可以根据自己的实践再加以补充。 

 

全文只是一个概览,如果大家有兴趣的话,让我看到你们点击在看的小手,后边陈老师有动力慢慢分享。需注意的是,如果是面试时讲自己用的数据分析方法,一定要和自己简历里的工作内容对的上,不然人家指着简历随口一句:你在哪个工作项目中用的这些方法?具体怎么用的?数据如何?估计就问崩了。面试千万条,真实第一条,瞎编易穿帮,失业两行泪

 

如果是在实际工作中,则要因地制宜选择方法。遇到事先问三问:

  1. 数据足不足够

  2. 时间允不允许

  3. 业务买不买单

 

在企业中,不是方法越难越有价值,而是越能帮助到业务才越有价值。同样效果前提下,方法越简单越好。因此真正做工作的时候,往往是在时间、数据、业务需求限制下,选择最短平快的方法。至于复杂的方法,可以在工作有余力的时候自己尝试。想探索数学的奥秘,可以去读个博士做科研。在企业做数据分析是为了助力业务,并不是自己嗨,一定要牢记这点。

 

更不用说,很多企业的数据化管理程度之低,还停留在“我就要个数,一个数而已”或者“让你的人工智能阿尔法大狗子帮我解决下和这个问题”两个极端上。数据真正发挥价值,靠的是体系化运作,不是某个大数据神人掐指一算,切记切记。



●编号812,输入编号直达本文

●输入m获取文章

推荐↓↓↓

Python编程

更多推荐25个技术类公众微信

涵盖:程序人生、算法与数据结构、黑客技术与网络安全、大数据技术、前端开发、Java、Python、Web开发、安卓开发、iOS开发、C/C++、.NET、Linux、数据库、运维等。

登录查看更多
0

相关内容

因子分析是指研究从变量群中提取共性因子的统计技术。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
195+阅读 · 2020年6月29日
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
194+阅读 · 2020年3月12日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
机器学习必备的数学基础有哪些?
人工智能头条
12+阅读 · 2019年10月18日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
你用 Python 做过什么有趣的数据挖掘项目?
计算机与网络安全
4+阅读 · 2018年2月11日
干货:10 种机器学习算法的要点(附 Python代码)
全球人工智能
4+阅读 · 2018年1月5日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
快速掌握机器学习,这 3 种算法你必须知道
开源中国
8+阅读 · 2017年11月9日
一位数据分析师的书单
R语言中文社区
12+阅读 · 2017年10月28日
开发 | 机器学习之确定最佳聚类数目的10种方法
AI科技评论
3+阅读 · 2017年10月11日
如何七周成为数据分析师
R语言中文社区
4+阅读 · 2017年7月19日
Arxiv
15+阅读 · 2020年2月6日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
53+阅读 · 2018年12月11日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
3+阅读 · 2018年3月22日
Arxiv
13+阅读 · 2018年1月20日
VIP会员
相关资讯
机器学习必备的数学基础有哪些?
人工智能头条
12+阅读 · 2019年10月18日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
你用 Python 做过什么有趣的数据挖掘项目?
计算机与网络安全
4+阅读 · 2018年2月11日
干货:10 种机器学习算法的要点(附 Python代码)
全球人工智能
4+阅读 · 2018年1月5日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
快速掌握机器学习,这 3 种算法你必须知道
开源中国
8+阅读 · 2017年11月9日
一位数据分析师的书单
R语言中文社区
12+阅读 · 2017年10月28日
开发 | 机器学习之确定最佳聚类数目的10种方法
AI科技评论
3+阅读 · 2017年10月11日
如何七周成为数据分析师
R语言中文社区
4+阅读 · 2017年7月19日
相关论文
Arxiv
15+阅读 · 2020年2月6日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
53+阅读 · 2018年12月11日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
3+阅读 · 2018年3月22日
Arxiv
13+阅读 · 2018年1月20日
Top
微信扫码咨询专知VIP会员