博客 | 回归类算法最全综述及逻辑回归重点讲解

2018 年 11 月 29 日 AI研习社

本文原载于微信公众号:AI部落联盟(AI_Tribe)AI研习社经授权转载。欢迎关注 AI部落联盟 微信公众号、知乎专栏 AI部落、及 AI研习社博客专栏


大家肯定知道线性回归和逻辑回归,还有其他类回归吗?不同类回归是根据什么区分的?他们的使用场景、优缺点有什么不同?线性回归有什么关键问题?逻辑回归的适用性是什么?逻辑回归能不能用于多分类?用于互斥的多分类与不互斥的多分类时有什么不同?带着这些问题一起来学学回归吧。


1.回归家族

根据因变量的类型、目标变量的个数、回归函数线的形状,可以把回归分为7类:线性回归、逻辑回归、多项式回归、逐步回归、岭回归、Lasso回归、ElasticNet 回归。


1.1线性回归:通过一条直线来拟合一个因变量Y与多个自变量(x1,x2...xn)的关系Y = a + W * X,自变量和因变量是线性关系。线性回归适用于低纬(自变量别太多), 且每一维之间都没有共线性。

共线性、自相关、异方差、对异常值非常敏感、模型参数的估计很不稳定(样本数据微变,可能参数估计就会巨变)。


1.2逻辑回归:擅长于二分类,也可用于多分类,不要求自变量和因变量是线性关系

独立的变量不能有共线性、容易欠拟合、需大量样本、不能很好地处理大量的多类特征


1.3多项式回归:如果回归的自变量指数超过1,则称为多项式回归。它的图形是曲线。

适合非线性关系的回归关系,一般情况比线性回归拟合度更好,但也会过拟合。


1.4逐步回归:基于特定标准加入或移除变量来拟合回归模型。自动选择变量,不需人干预。

逐步回归的每一步都会添加或移除一些变量。包括前进法和后退法,前者始于最显著的变量然后逐渐增加次显著变量,后者始于所有变量,然后逐渐移除一些不显著变量。逐步回归可以看成一种降维方法,它可以用最少的变量去最大化模型的预测能力。


1.5岭回归:在线性回归的基础上加入一个预测误差项,预测误差项包括偏差和方差。

可以解决重共线性问题、不能将模型系数收敛为0、没有特征选择功能。


1.6 Lasso回归:和岭回归非常类似,只是预测误差项中方差不一样。

惩罚项能收敛到0、有特征选择功能、存在不一致的问题。


1.7 ElasticNet 回归:是岭回归和Lasso回归的权重和。

存在双重收敛、改善Lasso 的不一致性问题。


岭回归解决共线性问题,Lasso回归解决变量选择问题, ElasticNet回归解决不一致性问题。


2. 回归理论基础


3. 线性回归的两个关键问题

求解系数:最小二乘法和梯度下降法。

变量选择:逐步回归、最优子集法、正则化方法(包括岭回归、lasso回归)、降维(主成分回归、偏最小二乘回归)。


4. 逻辑回归的适用性

寻找关键因素(特征):因为各个因素(特征)的贡献都是独立计算的,不需要条件独立性假设。

预测概率:尤其是广泛应用于广告点击率预测

广泛应用于各种场景下的分类:但是需要注意它一般仅能应用于线性问题,因此跟结果不是线性相关的feature一般都不起太大作用。


5. 逻辑回归的优化求解


6. 逻辑回归的实现

 

7. 逻辑回归的扩展

 

8. 总结

 

其实回归家族是个很庞大的家族,只是挑选我觉得比较关键的问题尝试简单分享,后续可能也会针对一些小的问题深入讲解,敬请期待~

 

后续我会专注于NLP(自然语言处理)、ML(机器学习)、DL(深度学习)、RL(强化学习)、TL(迁移学习)、GAN(生成对抗网络)等领域写一写个人的感悟,志在为大家提供一个干货与温度并存的学习与交流平台。期待您的关注,您的鼓励就是我不断写下去的动力,更期待有志同道合的朋友能加入一起写一写。予人玫瑰,手留余香!



独家中文版 CMU 秋季深度学习课程免费开学!

CMU 2018 秋季《深度学习导论》为官方开源最新版本,由卡耐基梅隆大学教授 Bhiksha Raj 授权 AI 研习社翻译。学员将在本课程中学习深度神经网络的基础知识,以及它们在众多 AI 任务中的应用。课程结束后,期望学生能对深度学习有足够的了解,并且能够在众多的实际任务中应用深度学习。

↗扫码即可免费学习↖


点击 阅读原文 查看本文更多内容

登录查看更多
13

相关内容

逻辑回归(也称“对数几率回归”)(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。在统计学中,logistic模型(或logit模型)用于对存在的某个类或事件的概率建模,例如通过/失败、赢/输、活着/死了或健康/生病。这可以扩展到建模若干类事件,如确定一个图像是否包含猫、狗、狮子等。图像中检测到的每个物体的概率都在0到1之间,其和为1。
最新《多任务学习》综述,39页pdf
专知会员服务
265+阅读 · 2020年7月10日
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
154+阅读 · 2020年6月14日
专知会员服务
140+阅读 · 2020年5月19日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
202+阅读 · 2020年2月11日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
入门 | 深度学习模型的简单优化技巧
机器之心
9+阅读 · 2018年6月10日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
机器学习(28)【降维】之sklearn中PCA库讲解与实战
机器学习算法与Python学习
8+阅读 · 2017年11月27日
从概念到案例:初学者须知的十大机器学习算法
算法与数学之美
8+阅读 · 2017年11月16日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
机器学习算法比较
我爱机器学习
4+阅读 · 2016年12月11日
W-net: Bridged U-net for 2D Medical Image Segmentation
Arxiv
19+阅读 · 2018年7月12日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
入门 | 深度学习模型的简单优化技巧
机器之心
9+阅读 · 2018年6月10日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
机器学习(28)【降维】之sklearn中PCA库讲解与实战
机器学习算法与Python学习
8+阅读 · 2017年11月27日
从概念到案例:初学者须知的十大机器学习算法
算法与数学之美
8+阅读 · 2017年11月16日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
机器学习算法比较
我爱机器学习
4+阅读 · 2016年12月11日
Top
微信扫码咨询专知VIP会员