基于R实现统计中的检验方法---卡方检验

2019 年 2 月 22 日 R语言中文社区

作者:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据。

知乎:

https://www.zhihu.com/people/parkson-19/posts


前言

卡方检验是一种确定两个分类变量之间是否存在显着相关性的统计方法。就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。


1.适用条件

1)每组的理论次数都要大于5;

2)应用卡方测验的次数资料不应是测量的观察值或以百分数表示的相对数。

2.分类

1)检验样本方差的齐性;

2)适合性检验,比较观测值与理论值是否符合(孟德尔遗传定律);

3)独立性检验,比较两个或两个以上的因子相互之前是独立的还是互相影响的。


3.R实例

代码部分只体现卡方独立性检验

R语言中实现卡方检验的函数是chisq.test(data),data以列联表的形式展现。

 1#以MASS包中Cars93数据集为例。检验汽车销售类型(Type)和安全气囊(AirBag)类型之间是否具有显著相关性。
2library(MASS)
3car.data<-table(Cars93$AirBags,Cars93$Type)#构建列联表
4car.data
5                  Compact Large Midsize Small Sporty Van
6  Driver & Passenger       2     4       7     0      3   0
7  Driver only              9     7      11     5      8   3
8  None                     5     0       4    16      3   6
9chisq.test(car.data)
10
11        Pearson's Chi-squared test
12
13data:  car.data
14X-squared = 33.001, df = 10, p-value = 0.0002723
15#结果显示,p<0.01,表明销售汽车类型和安全气囊具有极显著相关性。可以估计哪种类型的汽车可以更好地
16#销售哪种类型的气囊。


备注


1)卡方检验的结果,值是越大越好,还是越小越好?

答:与其它检验一样,所计算出的统计量越大,在分布中越接近分布的尾端,所对应的概率值越小。如果试验设计合理、数据正确,显著或不显著都是客观反映。没有什么好与不好。

参考

T检验与F检验的区别_f检验和t检验的关系 - Little_Rookie - 博客园

https://www.cnblogs.com/nxld/p/6185433.html




往期精彩:



公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战
回复 Python       1小时破冰入门
回复 数据挖掘     R语言入门及数据挖掘
回复 人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习     机器学习的商业应用
回复 数据科学     数据科学实战
回复 常用算法     常用数据挖掘算法

给我【好看】

你也越好看!

登录查看更多
0

相关内容

【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
195+阅读 · 2020年6月29日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
267+阅读 · 2020年6月10日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
407+阅读 · 2020年6月8日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
289+阅读 · 2020年6月3日
《代码整洁之道》:5大基本要点
专知会员服务
50+阅读 · 2020年3月3日
机器学习领域必知必会的12种概率分布(附Python代码实现)
算法与数学之美
21+阅读 · 2019年10月18日
基于R语言进行Box-Cox变换
R语言中文社区
45+阅读 · 2018年11月19日
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
干货:10 种机器学习算法的要点(附 Python代码)
全球人工智能
4+阅读 · 2018年1月5日
免费|机器学习算法Python实现
全球人工智能
5+阅读 · 2018年1月2日
一文解读聚类中的两种流行算法
量子位
6+阅读 · 2017年11月20日
蒙特卡罗方法入门
算法与数学之美
7+阅读 · 2017年9月26日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
利用TensorFlow实现多元逻辑回归和多元线性回归
数据挖掘入门与实战
5+阅读 · 2017年7月4日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年10月18日
VIP会员
相关资讯
机器学习领域必知必会的12种概率分布(附Python代码实现)
算法与数学之美
21+阅读 · 2019年10月18日
基于R语言进行Box-Cox变换
R语言中文社区
45+阅读 · 2018年11月19日
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
干货:10 种机器学习算法的要点(附 Python代码)
全球人工智能
4+阅读 · 2018年1月5日
免费|机器学习算法Python实现
全球人工智能
5+阅读 · 2018年1月2日
一文解读聚类中的两种流行算法
量子位
6+阅读 · 2017年11月20日
蒙特卡罗方法入门
算法与数学之美
7+阅读 · 2017年9月26日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
利用TensorFlow实现多元逻辑回归和多元线性回归
数据挖掘入门与实战
5+阅读 · 2017年7月4日
相关论文
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年10月18日
Top
微信扫码咨询专知VIP会员