扫描上方二维码 关注:七月在线实验室
后台回复:100 免费领取【机器学习面试100题】PDF版一份
请写出你了解的机器学习特征工程操作,以及它的意义
参考答案:
解析:
特征工程包括数据与特征处理、特征选择和降纬三部分。
数据与特征处理包括:
1.数据选择、清洗、采样
- 数据格式化;
- 数据清洗,填充缺失值、去掉脏数据,将不可信的样本丢掉,缺省值极多的字段考虑不用;
- 采样:针对正负样本不平衡的情况,当正样本远大于负样本时,且量都很大时,使用下采样,量不大时,可采集更多的数据或oversampling或修改损失函数;采样过程中可利用分层抽样保持不同类别数据的比例。
2.不同类型数据的特征处理
- 数值型:幅度调整/归一化、log等变化、统计值(例如max、min、mean、std)、离散化、分桶等
- 类别型:one-hot编码等
- 时间型: 提取出连续值的持续时间和间隔时间;提取出离散值的“年”、“月”、“日”、“一年中哪个星期/季度”、“一周中的星期几”、“工作日/周末”等信息
- 文本型:使用If-idf特征
- 统计型:加减平均、分位线、次序、比例
意义:
- 对数据进行预处理,可提高数据质量,提高挖掘质量。对数据进行清洗可填充缺失值、光滑噪声数据,识别和删除离群点数据,保证数据的一致性;
- 使用正确的采样方法可解决因数据不平衡带来的预测偏差;
- 对不同的数据类型进行不同的特征处理有助于提高特征的可用性,例如对数值型数据进行归一化可将数据转化到统一量纲下;对类别型数据,可用one-hot编码方法将类别数据数字化,数字化特征之后可更用来计算距离、相似性等;可从时间型数据当中提取中更多的时间特征,例如年、月和日等,这些特征对于业务场景以及模型的预测往往有很大的帮助。统计型特征处理有助于从业务场景中挖掘更丰富的信息。
特征选择包括:
1.Filter
使用方差、Pearson相关系数、互信息等方法过滤特征,评估单个特征和结果值之间的相关程度,留下Top相关的特征部分。
2.Wrapper
可利用“递归特征删除算法”,把特征选择看做一个特征子集搜索问题,筛选各种特征子集,用模型评估效果。
3.Embedded
可利用正则化方式选择特征,使用带惩罚项的基模型,除了选择出特征外,同时也进行了降纬。
意义:
-剔除对结果预测不大的特征,减小冗余,选择有意义的特征输入模型,提高计算性能。
降纬:
方法:主成分分析法(PCA)和线性判别分析(LDA)
意义: 通过PCA或LDA方法,将较高纬度样本空间映射到较低维度的样本空间,从而达到降纬的目的,减少模型的训练时间,提高模型的计算性能。
题目来源:七月在线官网(www.julyedu.com)——面试题库——面试大题——机器学习
今日学习推荐
【PyTorch的入门与实战】
长按识别下方二维码
免费试听
👇
长按识别二维码
点
咨询,查看课程,请点击“阅读原文”