逻辑斯特回归为什么要对特征进行离散化？ - 专知

会员服务 ·

0

逻辑斯特回归为什么要对特征进行离散化？

2019 年 4 月 1 日 七月在线实验室

●

今日面试题分享

●

逻辑斯特回归为什么要对特征进行离散化？

解析：

解析一

如七月在线寒老师所说

① 非线性！非线性！非线性！逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；离散特征的增加和减少都很容易，易于模型的快速迭代；

② 速度快！速度快！速度快！稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；

③ 鲁棒性！鲁棒性！鲁棒性！离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；

④ 方便交叉与特征组合：离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；

⑤ 稳定性：特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；

⑥ 简化模型：特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。

解析二

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：

a. 离散特征的增加和减少都很容易，易于模型的快速迭代；

b. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；

c. 离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；

d. 逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；

e. 离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；

f. 特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；

g. 特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。

李沐曾经说过：模型是使用离散特征还是连续特征，其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型，也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。

通常来说，前者容易，而且可以n个人一起并行做，有成功经验；后者目前看很赞，能走多远还须拭目以待。

本题解析来源：@严林，链接：https://www.zhihu.com/question/31989952

题目来源：七月在线官网（www.julyedu.com）——面试题库——面试大题——机器学习

END

今日学习推荐

【机器学习集训营第八期】

火热报名中

2019年4月15日开课

报名加送18VIP[包2018全年在线课程和全年GPU]

且两人及两人以上组团还能各减500元

有意的亲们抓紧时间喽

咨询/报名/组团可添加微信客服

julyedukefu_02

扫描下方二维码

免费试听

☟

长按识别二维码

▼更多精彩推荐，请关注我们▼

把时间交给成长

登录查看更多

6

相关内容

离散化

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

专知会员服务

13+阅读 · 2020年7月9日

【MIT-ICML2020】图神经网络的泛化与表示的局限

【MIT-ICML2020】图神经网络的泛化与表示的局限

专知会员服务

43+阅读 · 2020年6月23日

【ACL2020】利用模拟退火实现无监督复述

【ACL2020】利用模拟退火实现无监督复述

专知会员服务

14+阅读 · 2020年5月26日

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

专知会员服务

20+阅读 · 2020年4月4日

【CVPR2020-百度】用于视觉识别的门控信道变换

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

专知会员服务

52+阅读 · 2020年3月16日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

近期必读的7篇ICML 2019【Meta-Learning（元学习）】相关论文和代码

近期必读的7篇ICML 2019【Meta-Learning（元学习）】相关论文和代码

专知会员服务

37+阅读 · 2020年1月11日

树形结构为什么不需要归一化？

树形结构为什么不需要归一化？

七月在线实验室

8+阅读 · 2019年4月30日

BAT机器学习面试题1000题（331~335题）

BAT机器学习面试题1000题（331~335题）

七月在线实验室

12+阅读 · 2018年8月13日

【干货合集】一文读懂特征工程

【干货合集】一文读懂特征工程

七月在线实验室

13+阅读 · 2018年8月2日

用Python实现线性回归，8种方法哪个最高效？

用Python实现线性回归，8种方法哪个最高效？

七月在线实验室

7+阅读 · 2018年4月19日

【重温经典】吴恩达机器学习课程学习笔记五：特征处理与多项式拟合

【重温经典】吴恩达机器学习课程学习笔记五：特征处理与多项式拟合

专知

4+阅读 · 2018年4月11日

【干货】对于回归问题，我们该怎样选择合适的机器学习算法

【干货】对于回归问题，我们该怎样选择合适的机器学习算法

专知

5+阅读 · 2018年3月15日

【直观详解】什么【直观理解】一文搞懂RNN（循环神经网络）基础篇是PCA、SVD

【直观详解】什么【直观理解】一文搞懂RNN（循环神经网络）基础篇是PCA、SVD

机器学习研究会

9+阅读 · 2017年11月12日

特征工程的特征理解（一）

特征工程的特征理解（一）

机器学习研究会

10+阅读 · 2017年10月23日

BAT机器学习面试1000题系列（第51~55题）

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

从逻辑回归到最大熵模型

从逻辑回归到最大熵模型

夕小瑶的卖萌屋

4+阅读 · 2017年7月11日

Low-Resource Response Generation with Template Prior

Arxiv

4+阅读 · 2019年9月26日

Neural Response Generation with Meta-Words

Neural Response Generation with Meta-Words

Arxiv

6+阅读 · 2019年6月14日

Implicit Maximum Likelihood Estimation

Implicit Maximum Likelihood Estimation

Arxiv

7+阅读 · 2018年9月24日

Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection

Arxiv

4+阅读 · 2018年9月23日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

Mean Field Multi-Agent Reinforcement Learning

Arxiv

5+阅读 · 2018年6月12日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

SQL-Rank: A Listwise Approach to Collaborative Ranking

Arxiv

6+阅读 · 2018年2月28日

Multiple Object Detection, Tracking and Long-Term Dynamics Learning in Large 3D Maps

Arxiv

6+阅读 · 2018年1月28日

VIP会员

相关主题

广义线性模型

相关VIP内容

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

专知会员服务

13+阅读 · 2020年7月9日

【MIT-ICML2020】图神经网络的泛化与表示的局限

【MIT-ICML2020】图神经网络的泛化与表示的局限

专知会员服务

43+阅读 · 2020年6月23日

【ACL2020】利用模拟退火实现无监督复述

【ACL2020】利用模拟退火实现无监督复述

专知会员服务

14+阅读 · 2020年5月26日

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

专知会员服务

20+阅读 · 2020年4月4日

【CVPR2020-百度】用于视觉识别的门控信道变换

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

专知会员服务

52+阅读 · 2020年3月16日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

近期必读的7篇ICML 2019【Meta-Learning（元学习）】相关论文和代码

近期必读的7篇ICML 2019【Meta-Learning（元学习）】相关论文和代码

专知会员服务

37+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

树形结构为什么不需要归一化？

树形结构为什么不需要归一化？

七月在线实验室

8+阅读 · 2019年4月30日

BAT机器学习面试题1000题（331~335题）

BAT机器学习面试题1000题（331~335题）

七月在线实验室

12+阅读 · 2018年8月13日

【干货合集】一文读懂特征工程

【干货合集】一文读懂特征工程

七月在线实验室

13+阅读 · 2018年8月2日

用Python实现线性回归，8种方法哪个最高效？

用Python实现线性回归，8种方法哪个最高效？

七月在线实验室

7+阅读 · 2018年4月19日

【重温经典】吴恩达机器学习课程学习笔记五：特征处理与多项式拟合

【重温经典】吴恩达机器学习课程学习笔记五：特征处理与多项式拟合

专知

4+阅读 · 2018年4月11日

【干货】对于回归问题，我们该怎样选择合适的机器学习算法

【干货】对于回归问题，我们该怎样选择合适的机器学习算法

专知

5+阅读 · 2018年3月15日

【直观详解】什么【直观理解】一文搞懂RNN（循环神经网络）基础篇是PCA、SVD

【直观详解】什么【直观理解】一文搞懂RNN（循环神经网络）基础篇是PCA、SVD

机器学习研究会

9+阅读 · 2017年11月12日

特征工程的特征理解（一）

特征工程的特征理解（一）

机器学习研究会

10+阅读 · 2017年10月23日

BAT机器学习面试1000题系列（第51~55题）

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

从逻辑回归到最大熵模型

从逻辑回归到最大熵模型

夕小瑶的卖萌屋

4+阅读 · 2017年7月11日

相关论文

Low-Resource Response Generation with Template Prior

Arxiv

4+阅读 · 2019年9月26日

Neural Response Generation with Meta-Words

Neural Response Generation with Meta-Words

Arxiv

6+阅读 · 2019年6月14日

Implicit Maximum Likelihood Estimation

Implicit Maximum Likelihood Estimation

Arxiv

7+阅读 · 2018年9月24日

Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection

Arxiv

4+阅读 · 2018年9月23日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

Mean Field Multi-Agent Reinforcement Learning

Arxiv

5+阅读 · 2018年6月12日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

SQL-Rank: A Listwise Approach to Collaborative Ranking

Arxiv

6+阅读 · 2018年2月28日

Multiple Object Detection, Tracking and Long-Term Dynamics Learning in Large 3D Maps

Arxiv

6+阅读 · 2018年1月28日

大家都在搜

软件无线电

CMU博士论文

无人机集群

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员