[特征工程系列二]显性特征的基本处理方法

2018 年 2 月 4 日 凡人机器学习

点击蓝字关注这个神奇的公众号~

今天接着前一篇文章讲,主要分享基于显性特征工程的一些最基本的处理方法。关于显性特征是什么,大家可以去看系列文章一。关于显性特征的处理方法可以做这样的类比:不知道大家平时会不会自己做菜,我个人的话基本每周都会做。我们从菜市场买的菜,不经过处理是不能下锅的,因为需要清洗、摘取烂的叶子、切段等操作后才可以下锅。如果把机器学习整个流程比做炒一盘青菜的话,今天要介绍这些方式就有点像菜的前期处理过程。那我们就分类别介绍下,对于一份数据,需要针对特征做哪些处理。

 

1.数据清洗

主要包括两方面,一方面是填充缺失值,因为在机器学习算法的计算过程中会对数据进行各种运算符的计算,需要把一些空值填充,通常会被填充为0或者是对应特征列的均值。第二方面是乱码问题,如果是文本数据,经常会出现编码问题,需要把数据的类型全部处理好,最好是double型的。

 

2.去量纲

因为数据的量纲会影响到某些算法的计算,比如有两个字段数据分别是一个人吃饭用了多少秒、吃了多少斤饭,那一个是时间数据,另一个是重量数据,算法是无法感知这些量纲的影响的,所以需要一些数学手段规避。去量纲常用的方法是归一化和标准化。

 

标准化就是每个特征值减去均值再除以方差,表现的是数据的一个分布情况。

归一化是把数据的分布强制性的限制到01之间,使得向量单位化。

个人认为标准化对于刻画数据的特征效果更好。

 

3.数据平滑

大家可能平时会接触到一些分布极不均匀的数据,比如一个数据区间是[0,256],但是百分之九十以上的数据分布在[0,10][200,256]这两个区间中。对于这样的数据可以通过取对数的方式来处理,让数据的分布更加平滑。或者干脆数据分桶,取一个中间阈值128,小于128的标记为0,大于128的标记为1

 

4.数据去噪

很多时候数据因为采集方式可能出现各别事故,比如有的数据是靠调查问卷采集上来的,但是就有一个人不认真写,瞎写,造成了噪声数据。这种跟事实偏差极大的数据,可以通过正态分布的原理去除,因为可以设想数据的分布大部分是比较平均的,符合正态分布,那与均值偏差极大的部分就很有可能是噪声,需要去除。

 

5.降维

降维的方式很多啦,如果要讲的话需要非常大的篇幅,之前在写书的时候已经写了一遍了~有点懒,在这里简单提下。其实除了PCALDA这两种降维方式以外,逻辑回归中的正则L1也可以理解为一种降维处理。


好哒,今天就分享这么多,感谢大家的收看,如果觉得有帮助可以帮忙转发,如果觉得没帮助就算了,谢谢。

 End 


为了方便大家学习与交流,凡人云近日已开通机器学习社群!

分享公众号名片到40人以上的大群并截图给小助手,小助手就会拉你入群

在这里你可以得到:

1.各种学术讨论

2.最新的资料分享

3.不定期的征文以及联谊活动!

小助手微信号:meiwznn


给我一分钟

送你一个学习的世界

微信号:凡人机器学习

长按二维码关注


登录查看更多
0

相关内容

【经典书】概率统计导论第五版,730页pdf
专知会员服务
241+阅读 · 2020年7月28日
基于深度学习的表面缺陷检测方法综述
专知会员服务
94+阅读 · 2020年5月31日
最新《机器学习理论初探》概述
专知会员服务
47+阅读 · 2020年5月19日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
104+阅读 · 2019年11月4日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
【干货合集】一文读懂特征工程
七月在线实验室
13+阅读 · 2018年8月2日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
超级干货 :一文读懂特征工程
数据分析
9+阅读 · 2017年9月6日
已删除
将门创投
9+阅读 · 2017年7月28日
Arxiv
15+阅读 · 2019年4月4日
Arxiv
4+阅读 · 2018年7月4日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关VIP内容
【经典书】概率统计导论第五版,730页pdf
专知会员服务
241+阅读 · 2020年7月28日
基于深度学习的表面缺陷检测方法综述
专知会员服务
94+阅读 · 2020年5月31日
最新《机器学习理论初探》概述
专知会员服务
47+阅读 · 2020年5月19日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
104+阅读 · 2019年11月4日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
相关资讯
【干货合集】一文读懂特征工程
七月在线实验室
13+阅读 · 2018年8月2日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
超级干货 :一文读懂特征工程
数据分析
9+阅读 · 2017年9月6日
已删除
将门创投
9+阅读 · 2017年7月28日
Top
微信扫码咨询专知VIP会员