如何通俗地理解假设检验基本原理

2018 年 8 月 7 日 R语言中文社区



点击上方蓝色字体,关注我们

作者简介

浩彬老撕,R语言中文社区特邀作者,好玩的IBM数据工程师,立志做数据科学界的段子手。

个人公众号:探数寻理


前文推送:

数据分析五板斧与里面的屠龙刀(上)

数据分析五板斧与里面的屠龙刀(下)




假设检验的基本原理


在日常的统计分析当中,我们针对所研究问题的全体对象,称之为总体例如我们想要研究2017年大学生毕业生的薪酬水平,那么在2017年所有大学毕业生就是研究问题的总体。

但事实上,假如要研究这个问题,我们并不会对该年的所有应届毕业生进行问卷调查,因为数量实在太多了!


那怎么办?

一般情况下,我们可以从总体当中,按照一定的方法抽取部分的研究对象作为研究,而这部分的抽取对象,我们称之为样本


事实上,由于总体分布未知,通过抽取样本数据进行测量,从而对总体作出理论的方法,我们称之为统计推断。假设检验是统计推断的重要组成内容。它是通过构造假设条件,并通过样本数据对假设条件进行检验,从而得出结论的方法。


例如,从过往的资料中,我们知道2016年大学毕业生平均薪酬为4765元,标准差为300元,现在从2017年的大学毕业生中随机抽取10000名,调查得到其平均薪酬为4912元,现在我们想知道2017年大学毕业生的平均薪酬和2016年相比是否有显著差异

从抽样调查结果,我们知道17年的平均薪酬为4912元,相比于16年增加了147元,但现在问题在于这147元的差异可能有两种可能引起:第一种可能是,17年和16年的平均薪酬其实并没有太大差别,只是由于抽样误差引起了147元的波动;第二种可能是17年和16年的平均薪酬确实有明显差异,由于经济的增长,17年的平均薪酬确实增加了。


事实上,假设检验的核心正是判断这个差异是否足以通过抽样的随机性来解释。

因此,首先我们构造两个假设,第一个假设称之为原假设,也被称为H0,例如假定前后两个总体没有显著差异:


第二个假设称之为备设假设,也被称为H2,假定前后两个总体有显著差异,


之后,我们可则以构造一个与此相关的统计量,如果该统计量非常的大(即已经超过了一定的临界值),我们则可以认为这种差异并不仅仅是由抽样误差带来的,因此我们可以拒绝原假设,认为两个总体有显著差异。


值得注意的是,假设检验是一种“小概率反证”的思想。即原假设成立的前提下,小概率事件在一次试验中不太可能发生,如果发生了,则认为原假设并不成立。

在这里,小概率事件的阈值,我们称之为检验水平,一般情况下我们取,即把发生概率小于0.05的事件称之为小概率事件。相反,如果我们假设检验中,没有拒绝原假设,并不意味着我们完全接受原假设,只是说明样本数据的“证据”不足,暂时不拒绝原假设。




假设检验的一般步骤




我们继续以上一节中的大学毕业生工资水平变动情况的例子来说明假设检验的步骤。

1.   建立假设检验

零假设H0: 2017年大学毕业生平均工资与2016年大学毕业生平均工资无显著差异;

备设假设H1:2017年大学毕业生平均工资与2016年大学毕业生平均工资有显著差异;

设定显著性水平


2.   选择假设检验方法和计算检验统计量

根据研究分析的目的和数据类型,确定检验方法。常用的检验方法包括Z检验,t检验,卡方检验等。

在本例中,我们属于单组样本检验,并已知总体均值和方差,因此可以常用Z检验。在原假设成立的前提下,可以采用如下Z统计量:


另外,在某些情况下,由于不知道总体方差,可以采用t检验代替:

(该检验统计量服从自由度n-1的t分布)


3.   判断临界值,作出结论

因为,对应临界值。因为,所以我们可以拒绝原假设,认为2017年大学毕业生平均工资与2016年大学毕业生平均工资有显著差异。


进一步来看,除了通过计算检验统计量是否超过临界值进行判断之外,还可以计算P值。P值的含义是,当原假设为真的情况下,根据样本所计算得到的检验统计量的结果或更极端结果的概率。因此可知,当P值小于,则检验统计量大于临界值,我们可以拒绝原假设;当P值大于,则检验统计量小于临界值,我们不能拒绝原假设。特别地,如果我们的检验统计量恰好等于临界值,则我们的P值将恰好等于。关于P值的计算,我们一般可以借助SPSS得到。

 


好玩

通俗

易懂

de

机器学习课程

Now

限免

限免

限免

现在扫描下方二维码即可免费学习

点击阅读原文可购买配套教材书籍

登录查看更多
1

相关内容

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。 统计上对参数的假设,就是对一个或多个参数的论述。而其中欲检验其正确性的为零假设(null hypothesis),零假设通常由研究者决定,反映研究者对未知参数的看法。相对于零假设的其他有关参数之论述是备择假设(alternative hypothesis),它通常反应了执行检定的研究者对参数可能数值的另一种(对立的)看法(换句话说,备择假设通常才是研究者最想知道的)。 假设检验的种类包括:t检验,Z检验,卡方检验,F检验等等。
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
226+阅读 · 2020年3月22日
缺失数据统计分析,第三版,462页pdf
专知会员服务
109+阅读 · 2020年2月28日
【新书】Python中的经典计算机科学问题,224页PDF
专知会员服务
56+阅读 · 2019年12月31日
已删除
将门创投
6+阅读 · 2019年1月2日
一文详解生成对抗网络(GAN)的原理,通俗易懂
人工智能头条
6+阅读 · 2018年5月6日
数据科学家需要了解的5种聚类算法
论智
5+阅读 · 2018年4月7日
从最大似然到EM算法:一致的理解方式
PaperWeekly
19+阅读 · 2018年3月19日
干货 | 自然语言处理(1)之聊一聊分词原理
机器学习算法与Python学习
5+阅读 · 2017年12月7日
干货|通俗易懂地解释EM算法并举例说明?
机器学习研究会
12+阅读 · 2017年11月17日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
11+阅读 · 2018年3月23日
Arxiv
6+阅读 · 2018年2月28日
Arxiv
9+阅读 · 2018年1月30日
Arxiv
3+阅读 · 2018年1月10日
VIP会员
相关资讯
已删除
将门创投
6+阅读 · 2019年1月2日
一文详解生成对抗网络(GAN)的原理,通俗易懂
人工智能头条
6+阅读 · 2018年5月6日
数据科学家需要了解的5种聚类算法
论智
5+阅读 · 2018年4月7日
从最大似然到EM算法:一致的理解方式
PaperWeekly
19+阅读 · 2018年3月19日
干货 | 自然语言处理(1)之聊一聊分词原理
机器学习算法与Python学习
5+阅读 · 2017年12月7日
干货|通俗易懂地解释EM算法并举例说明?
机器学习研究会
12+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员