数据分析师应该知道的16种回归技术:偏最小二乘回归

2018 年 8 月 29 日 数萃大数据

对于线性回归模型,当预测变量具有多重共线性,或者预测变量比观测值多。若依然采用普通的最小二乘(OLS)算法进行参数估计,往往出现估计偏差大,模型不能反映变量间的真实关系。对于这个问题,我们可以使用主成份回归(PCR),由于PC间相互独立,这样的话就不会有多重共线性问题。然而,PCR存在三点不足:(a)PC可能与因变量Y有关;(b)可能前p-1个pc与因变量都无关,最后一个pc解释了因变量的所有变异;(c)PCA只适用于一维因变量。今天介绍的偏最小二乘回归(PLSR)基本上就是对这些不足的弥补。


PLSR依赖于自变量X和因变量Y的主成份,核心思想是首先算出X和Y的主成份得分阵,然后对得分阵进行回归。

如上图所示,X被分解成得分阵T和载荷阵P'的乘积再加上误差阵E。Y被分解成了得分阵U和载荷阵Q'的乘积再加上误差项F,称这两个等式为回归模型的外部关系。PLS算法的目标是最小化误差F的范数同时通过内部关系U=BT保持X与Y之间的相关关系。


常用来进行PLSR的算法有两种:NIPALS和SIMPLS。下面给出两种方法的计算过程:

NIPALS

为常数,

  1. 计算的特征向量

  2. ,其中,

  3. ,其中,,

  4.  设,其中

  5.  

  6.  


SIMPLS

为常数,

  1. 计算的特征向量

  2. ,其中,,

  3. ,其中

  4. ,其中

  5.  

  6.  

  7.  


然后求的系数估计值为:

就计算效率而言后者要优于前者。因此在进行PLSR时,常选用SIMPLS算法。R软件pls包中的plsr可以实现此方法。最后一个问题是确定PLS模型中主成份的个数,可采用交叉验证的方法求解不同个数主成份下模型的预测均方根误差(RMSEP)。


案例:

我们采用的数据集是oliveoil,该数据集从颜色(黄、绿、棕)、光泽、透明度、糖汁6个物理属性描述16种橄榄油样本的5种化学属性,其中前5种来自希腊,中间5种来自意大利和剩余样本来自西班牙。

  
  
    
  1. library(pls)

  2. X <- oliveoil$sensory

  3. Y <- oliveoil$chemical

  4. pls1 <- plsr(X ~ Y,validation = "LOO")

  5. plot(RMSEP(pls1), legendpos = "topright")

上图表明,选用两个主成份,橄榄油各物理指标的PRMSE达到相对较小的值。最终得到不同物理指标下回归系数如下:

  
  
    
  1. pls2 <- plsr(X ~ Y ,ncomp = 2,validation = "LOO")

  2. coef(pls2)


推荐阅读

数据分析师应该知道的16种回归技术:主成份回归

数据分析师应该知道的16种回归技术:弹性网络回归

从零开始深度学习第9讲:卷积神经网络(CNN)入门

谈谈大数据的那点事 (12)——如何理解大数据和分析大数据

爬取R语言会议视频

R语言做并行爬虫(案例说明)

基于lpSolve解决滴滴打车的车辆分配问题


长按二维码关注“数萃大数据”


登录查看更多
14

相关内容

【新书册】贝叶斯神经网络,41页pdf
专知会员服务
177+阅读 · 2020年6月3日
【经典书】贝叶斯编程,378页pdf,Bayesian Programming
专知会员服务
247+阅读 · 2020年5月18日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
195+阅读 · 2020年5月2日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
67+阅读 · 2020年4月7日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
博客 | 回归类算法最全综述及逻辑回归重点讲解
AI研习社
13+阅读 · 2018年11月29日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归技术:弹性网络回归
数萃大数据
91+阅读 · 2018年8月16日
【干货】机器学习中的五种回归模型及其优缺点
机器学习算法与Python学习
7+阅读 · 2018年8月10日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
机器学习者都应该知道的五种损失函数!
数盟
5+阅读 · 2018年6月21日
已删除
将门创投
4+阅读 · 2018年6月12日
Deep Anomaly Detection with Outlier Exposure
Arxiv
17+阅读 · 2018年12月21日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
Arxiv
3+阅读 · 2018年4月9日
VIP会员
相关VIP内容
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
177+阅读 · 2020年6月3日
【经典书】贝叶斯编程,378页pdf,Bayesian Programming
专知会员服务
247+阅读 · 2020年5月18日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
195+阅读 · 2020年5月2日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
67+阅读 · 2020年4月7日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
博客 | 回归类算法最全综述及逻辑回归重点讲解
AI研习社
13+阅读 · 2018年11月29日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归技术:弹性网络回归
数萃大数据
91+阅读 · 2018年8月16日
【干货】机器学习中的五种回归模型及其优缺点
机器学习算法与Python学习
7+阅读 · 2018年8月10日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
机器学习者都应该知道的五种损失函数!
数盟
5+阅读 · 2018年6月21日
已删除
将门创投
4+阅读 · 2018年6月12日
Top
微信扫码咨询专知VIP会员