面试题:连续特征,可离散化,也可幅度缩放,两种处理方式适用于什么场景?

2019 年 10 月 16 日 七月在线实验室
  
  
    

解析:

幅度缩放一般在计算型模型里会用到,比如LR DNN 离散化一般是线性模型会用到,比如LR。

如七月在线的寒老师所说,离散化的目的有以下几个方面:
① 非线性! 非线性! 非线性!
逻辑回归属于广义线性模型,表达能力受限; 单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合; 离散特征的增加和减少都很容易,易于模型的快速迭代;

② 速度快! 速度快! 速度快!
稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;

③ 鲁棒性! 鲁棒性! 鲁棒性!
离散化后的特征对异常数据有很强的鲁棒性: 比如一个特征是年龄>30是1,否则0。 如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;

④ 方便交叉与特征组合: 离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;

⑤ 稳定性: 特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。 当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;

⑥ 简化模型: 特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

本文来自七月在线题库,更多面试题,可在题库中查看。
 
【推荐系统就业小班 第三期】
BAT大咖小班教学,保证就业!
由3位在BAT从业多年的团队核心大佬,定制化授课:
并且讲师及助教团队会手把手带大家做出五大超高含金量的项目:
各位同学如果对课程感兴趣,可扫码查看详情,并且现在报名还赠送19VIP会员,可免费使用一年高配GPU&CPU云平台(P100哦)、免费学习现在100+门以及未来20+门课程!
↓扫码查看↓
   
   
     

据说答对这12道题,就能成为算法工程师
60位学员的转行心得,30-60万年薪
你在看吗?

登录查看更多
2

相关内容

【CVPR2020-CMU】无数据模型选择,一种深度框架潜力
专知会员服务
22+阅读 · 2020年4月12日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
 第八届中国科技大学《计算机图形学》暑期课程课件
专知会员服务
55+阅读 · 2020年3月4日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
树形结构为什么不需要归一化?
七月在线实验室
8+阅读 · 2019年4月30日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
逻辑斯特回归为什么要对特征进行离散化?
七月在线实验室
6+阅读 · 2019年4月1日
今日面试题分享:L1和L2的区别
七月在线实验室
7+阅读 · 2019年3月14日
今日面试题分享:为什么xgboost要用泰勒展开,优势在哪里?
BAT机器学习面试1000题(716~720题)
七月在线实验室
19+阅读 · 2018年12月17日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
深度学习面试100题(第76-80题)
七月在线实验室
6+阅读 · 2018年8月3日
【干货合集】一文读懂特征工程
七月在线实验室
13+阅读 · 2018年8月2日
AI笔试面试题库-Python题目解析1
七月在线实验室
5+阅读 · 2018年6月27日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
9+阅读 · 2019年4月19日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
3+阅读 · 2017年7月6日
VIP会员
相关资讯
树形结构为什么不需要归一化?
七月在线实验室
8+阅读 · 2019年4月30日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
逻辑斯特回归为什么要对特征进行离散化?
七月在线实验室
6+阅读 · 2019年4月1日
今日面试题分享:L1和L2的区别
七月在线实验室
7+阅读 · 2019年3月14日
今日面试题分享:为什么xgboost要用泰勒展开,优势在哪里?
BAT机器学习面试1000题(716~720题)
七月在线实验室
19+阅读 · 2018年12月17日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
深度学习面试100题(第76-80题)
七月在线实验室
6+阅读 · 2018年8月3日
【干货合集】一文读懂特征工程
七月在线实验室
13+阅读 · 2018年8月2日
AI笔试面试题库-Python题目解析1
七月在线实验室
5+阅读 · 2018年6月27日
相关论文
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
9+阅读 · 2019年4月19日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
3+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员