数据分析师应该知道的16种回归方法:定序回归

2018 年 9 月 9 日 数萃大数据

定序回归适用于因变量是有序的情形,可用预测有序数据。那么什么是有序数据呢?我们考虑以下三种情形:

  • 1=1岁,2=2岁,3=3岁;

  • 1=红色,2=黄色,3=蓝色;

  • 1=不喜欢,2=无所谓,3=喜欢。

上述三种不同的情形,其数据代码都是1、2、3。第一种情形下,代码代表了小孩的年龄,这里的1、2、3是有具体的数值意义的,可作代数运算,即2岁-1岁=1岁,说明2岁的孩子比1岁的孩子大1岁。但是,第二种情形下,不能作代数运算,其数据类型是没有任何数值意义的。类似地,情形3中的数据类型也没有数值意义。那么,情形2和情形3的数据类型又有什么不一样的呢?对于情形2,我们完全可以打乱顺序而不会造成任何混乱。但是对于情形3,打乱顺序则会造成数据分析的混乱。由此可见,情形3中的数据有两个特征:

  • 没有数值意义;

  • 有顺序意义。

我们称这样的数据类型为定序数据。下面开始介绍定序回归的内容。


设因变量个可能的值,自变量,累积逻辑概率函数

满足:

其中,为未知参数。由于

即在不同的点上做出相同反应的累积概率比与点的距离成正比,这个模型被称为比例概率模型。如果每一类有自己的,则原模型变为:

称这个模型为累积逻辑模型。在使用累积逻辑模型首先需要对的平行线假设进行检验。如果平行假设被拒绝,便说明自变量对不同的类有不同的,则需要采用累积逻辑模型进行数据分析。

对于上述模型,可利用极大似然法可以对定序回归进行参数估计。一般来讲有两种估计路径:

  • 先估计,然后计算,注;

  • 直接估计


案例

在某次社会调研中,要求受访群众对该地的刑事法官的工作进行评级。

一共有四种评价尺度,从低到高依次为:1=差,2=一般,3=好,4=极好。与此同时要求受访者报告近三年,家庭中是否有人是犯罪受害者。调查结果见下表

在R中使用ordinal包中的clm函数执行定序回归。

  
  
    
  1. library(ordinal)

  2. dt <- matrix(c(14,28,31,3,38,170,248,34),ncol = 4,

  3.             byrow = T,dimnames=list(c("year", "no"),

  4.                    c("Poor", "Fair", "Good","Excellent")))

  5. dat <- reshape2::melt(dt)

  6. names(dat) <- c("Performance",'Victim','Number')

  7. dat$Performance=as.factor(dat$Performance)

  8. dat$Victim=as.factor(dat$Victim)

  9. fm1 <- clm(Performance ~ Victim, weights = Number, data = dat)

  10. summary(fm1)


推荐阅读

数据分析师应该知道的16种回归技术:偏最小二乘回归

数据分析师应该知道的16种回归方法:支持向量回归

reticulate: R interface to Python

谈谈大数据的那点事 (12)——如何理解大数据和分析大数据

从零开始深度学习第9讲:卷积神经网络(CNN)入门

R语言做并行爬虫(案例说明)

R语言爬虫常用方法总结(以案例说明)

使用jupyter notebook搭建数据科学最佳交互式环境


长按二维码关注“数萃大数据”

登录查看更多
16

相关内容

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
224+阅读 · 2020年3月22日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
166+阅读 · 2019年12月4日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
R语言机器学习:xgboost的使用及其模型解释
R语言中文社区
11+阅读 · 2019年5月6日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归技术:弹性网络回归
数萃大数据
91+阅读 · 2018年8月16日
LASSO回归与XGBoost:融合模型预测房价
论智
31+阅读 · 2018年8月8日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
回归预测&时间序列预测
GBASE数据工程部数据团队
43+阅读 · 2017年5月17日
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
Arxiv
3+阅读 · 2018年4月9日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
224+阅读 · 2020年3月22日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
192+阅读 · 2020年3月12日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
166+阅读 · 2019年12月4日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
R语言机器学习:xgboost的使用及其模型解释
R语言中文社区
11+阅读 · 2019年5月6日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归技术:弹性网络回归
数萃大数据
91+阅读 · 2018年8月16日
LASSO回归与XGBoost:融合模型预测房价
论智
31+阅读 · 2018年8月8日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
回归预测&时间序列预测
GBASE数据工程部数据团队
43+阅读 · 2017年5月17日
Top
微信扫码咨询专知VIP会员