今日面试题分享:请写出你了解的机器学习特征工程操作,以及它的意义

2019 年 3 月 20 日 七月在线实验室


扫描上方二维码  关注:七月在线实验室 

后台回复:100   免费领取【机器学习面试100题】PDF版一份


今日面试题分享
请写出你了解的机器学习特征工程操作,以及它的意义


参考答案:


解析:

特征工程包括数据与特征处理、特征选择和降纬三部分。 


数据与特征处理包括: 

1.数据选择、清洗、采样 

- 数据格式化; 

- 数据清洗,填充缺失值、去掉脏数据,将不可信的样本丢掉,缺省值极多的字段考虑不用; 

- 采样:针对正负样本不平衡的情况,当正样本远大于负样本时,且量都很大时,使用下采样,量不大时,可采集更多的数据或oversampling或修改损失函数;采样过程中可利用分层抽样保持不同类别数据的比例。  


2.不同类型数据的特征处理 

- 数值型:幅度调整/归一化、log等变化、统计值(例如max、min、mean、std)、离散化、分桶等 

- 类别型:one-hot编码等 

- 时间型: 提取出连续值的持续时间和间隔时间;提取出离散值的“年”、“月”、“日”、“一年中哪个星期/季度”、“一周中的星期几”、“工作日/周末”等信息 

- 文本型:使用If-idf特征 

- 统计型:加减平均、分位线、次序、比例  


意义: 

- 对数据进行预处理,可提高数据质量,提高挖掘质量。对数据进行清洗可填充缺失值、光滑噪声数据,识别和删除离群点数据,保证数据的一致性; 

- 使用正确的采样方法可解决因数据不平衡带来的预测偏差; 

- 对不同的数据类型进行不同的特征处理有助于提高特征的可用性,例如对数值型数据进行归一化可将数据转化到统一量纲下;对类别型数据,可用one-hot编码方法将类别数据数字化,数字化特征之后可更用来计算距离、相似性等;可从时间型数据当中提取中更多的时间特征,例如年、月和日等,这些特征对于业务场景以及模型的预测往往有很大的帮助。统计型特征处理有助于从业务场景中挖掘更丰富的信息。 


特征选择包括:

1.Filter 

使用方差、Pearson相关系数、互信息等方法过滤特征,评估单个特征和结果值之间的相关程度,留下Top相关的特征部分。  


2.Wrapper 

可利用“递归特征删除算法”,把特征选择看做一个特征子集搜索问题,筛选各种特征子集,用模型评估效果。  


3.Embedded 

可利用正则化方式选择特征,使用带惩罚项的基模型,除了选择出特征外,同时也进行了降纬。 


意义: 

-剔除对结果预测不大的特征,减小冗余,选择有意义的特征输入模型,提高计算性能。  


降纬: 

方法:主成分分析法(PCA)和线性判别分析(LDA) 


意义: 通过PCA或LDA方法,将较高纬度样本空间映射到较低维度的样本空间,从而达到降纬的目的,减少模型的训练时间,提高模型的计算性能。


题目来源:七月在线官网(www.julyedu.com)——面试题库——面试大题——机器学习




今日学习推荐

【PyTorch的入门与实战】

16小时带你实战PyTorch 1.0 

四大课程特色  八大实战项目


长按识别下方二维码

免费试听

👇

长按识别二维码



备战AI求职季 | 100道机器学习面试题(上)

一文详解:什么是B树?

机器学习中的数学基础(微积分和概率统计)

一文详解机器学习中最好用的提升方法:Boosting 与 AdaBoost

34个最优秀好用的Python开源框架

【实战分享】电影推荐系统项目实战应用

万字长文概述NLP中的深度学习技术


咨询,查看课程,请点击“阅读原文

「 在看的,麻烦点一下再走~ 」

登录查看更多
39

相关内容

特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
最新《自动微分手册》77页pdf
专知会员服务
102+阅读 · 2020年6月6日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
162+阅读 · 2020年5月14日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
226+阅读 · 2020年3月22日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
53+阅读 · 2019年11月20日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
备战AI求职季 | 100道机器学习面试题(下)
七月在线实验室
9+阅读 · 2019年3月22日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
机器学习(28)【降维】之sklearn中PCA库讲解与实战
机器学习算法与Python学习
8+阅读 · 2017年11月27日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
Arxiv
8+阅读 · 2019年2月15日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
5+阅读 · 2018年1月29日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
最新《自动微分手册》77页pdf
专知会员服务
102+阅读 · 2020年6月6日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
162+阅读 · 2020年5月14日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
226+阅读 · 2020年3月22日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
53+阅读 · 2019年11月20日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
相关资讯
备战AI求职季 | 100道机器学习面试题(下)
七月在线实验室
9+阅读 · 2019年3月22日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
机器学习(28)【降维】之sklearn中PCA库讲解与实战
机器学习算法与Python学习
8+阅读 · 2017年11月27日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
Top
微信扫码咨询专知VIP会员