数据分析师应该知道的16种回归方法:泊松回归

2018 年 9 月 13 日 数萃大数据

从这篇开始,将给大家分享三类计数回归模型:泊松回归,负二项回归,准泊松回归。先从泊松回归开始,泊松回归是最常用的计数回归模型,它是广义线性回归模型的一种,其因变量服从泊松分布。泊松回归常用来对非负整数随机变量建模。


泊松分布

设随机变量,则的概率密度函数为:

泊松分布一个重要的特征是:唯一的参数,即是均值又是方差,即

泊松回归

在泊松回归中,解释变量对响应变量的平均值进行建模。因为响应变量的均值必须是正的但解释变量的线性组合

其中,可取任何值,因此我们需要寻找参数的联结函数保证回归等式成立。标准的联结函数是自然对数,即

将上述关系带入泊松分布的概率密度函数中,其对数似然函数为:

虽然对求导后不能获得关于的解析表达式,但为凸函数,因此我们可以采用梯度下降的方法获得的最优值。


案例

ACF是一种异常管状结构,它们是肿瘤的前兆。在一项实验中,研究人员将22只老鼠暴露在一种致癌物质中,然后计算出老鼠结肠中ACFs的数量。小鼠被分成三组,从首次接触致癌物质开始,三组分别是6、12或18周记录ACFs的数量。数据在DAAG包的ACF1数据集中,包含count(ACFs的数量)和endtime(结束时间)两个变量。

  
  
    
  1. library(DAAG)

  2. attach(ACF1)

  3. plot(count ~ endtime, pch = 16,cex=2,col='red')

  4. acf1.glm = glm(count ~ endtime, family = poisson)

  5. acf2.glm = glm(count ~ endtime + I(endtime^2), family = poisson)

  6. plot(count ~ endtime, pch = 16)

  7. means = sapply(split(count, endtime), mean)

  8. unq = unique(endtime)

  9. points(unq, means, col = "yellow", pch = 17, cex = 2)

  10. u = seq(6, 18, length = 201)

  11. dfu = data.frame(endtime = u)

  12. eta1 = predict(acf1.glm, dfu)

  13. eta2 = predict(acf2.glm, dfu)

  14. lines(u, exp(eta1), col = "blue",lwd=2)

  15. lines(u, exp(eta2), col = "red",lwd=2)

  16. legend('topleft',c('泊松回归(线性)','泊松回归(二次)','平均值'),

  17.       col=c('blue','red','yellow'),lty=c(1,1,NA),pch=c(NA,NA,17),

  18.       bty='n',lwd=c(2,2,NA))

  19. detach(ACF1)

从图可以发现二次泊松回归可以很好拟合每组小鼠ACFs数的平均值。

推荐阅读

数据分析师应该知道的16种回归方法:支持向量回归

数据分析师应该知道的16种回归方法:定序回归

reticulate: R interface to Python

谈谈大数据的那点事 (12)——如何理解大数据和分析大数据

从零开始深度学习第10讲:三维卷积、池化与全连接

R语言做并行爬虫(案例说明)

R语言爬虫常用方法总结(以案例说明)

使用jupyter notebook搭建数据科学最佳交互式环境


长按二维码关注“数萃大数据”

登录查看更多
35

相关内容

【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
195+阅读 · 2020年6月29日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
290+阅读 · 2020年6月3日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
115+阅读 · 2020年5月9日
自回归模型:PixelCNN
专知会员服务
27+阅读 · 2020年3月21日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
194+阅读 · 2020年3月12日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归技术:弹性网络回归
数萃大数据
91+阅读 · 2018年8月16日
LASSO回归与XGBoost:融合模型预测房价
论智
32+阅读 · 2018年8月8日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
回归预测&时间序列预测
GBASE数据工程部数据团队
43+阅读 · 2017年5月17日
A Probe into Understanding GAN and VAE models
Arxiv
9+阅读 · 2018年12月13日
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
6+阅读 · 2018年2月7日
Arxiv
3+阅读 · 2018年1月10日
VIP会员
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归技术:弹性网络回归
数萃大数据
91+阅读 · 2018年8月16日
LASSO回归与XGBoost:融合模型预测房价
论智
32+阅读 · 2018年8月8日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
回归预测&时间序列预测
GBASE数据工程部数据团队
43+阅读 · 2017年5月17日
Top
微信扫码咨询专知VIP会员