一个奇异值的江湖 -- 机器学习观

2017 年 7 月 22 日 数萃大数据 史春奇

【数萃大数据】公众号又开办了一个新栏目,之后我们每周末会为大家分享各种趣闻趣事名人好书

我们将连续转载史春奇老师高品质的推文。感谢史春奇老师的授权以及对数萃大数据学院的大力支持!






前面我们熟悉了经典统计处理outlier的方法。 这里会说明常见的机器学习的方法。


在展示算法之前, 有几类特殊的数据类型可能需要强调一下, 因为这些数据特性会影响到具体算法的选择的:


1. 基于距离的数据 (Distance based)




2. 相关性维度的数据 (Correlated dimensions)



3. 类别数据 (Categorical data)




4. 高维度数据 (High dimensional)






机器学习方法


机器学习根据是否有监督一般可以分为三类: supervised, unsupervised, semi-supervised。




为什么要探讨这三种模式,其实主要看你是否有经验数据的积累。

1)  一般来说, 如果你之前人工收集了大量的outlier数据的积累, 你想把这些信息有效的用起来, 那么监督学习是最好的。

2) 但是如果你没有outlier的积累, 或者这种手工积累太麻烦, 你就希望自动找出一些outlier来。

3) 如果你通过无监督找到一部分oulier,然后交互式的标记一些, 然后希望找到更为精确, 那么半监督就是一个很好的方式。




有监督 (Supervised)


1. Gaussian Mixture Model (GMM, 高斯混合模型) :


2. Bayesian Networks (贝叶斯网络)





3. Support Vector Machine (SVM, 支持向量机):





4. Multi-Layer Perceptron (MLP, 多层神经网络):




5. Nearest Neighbor  (KNN, K 近邻)




Rule-based Systems (基于规则的系统):





无监督 (Unsupervised)


6. DBScan(Density based, 基于密度的聚类)



7. Spectral Clustering (谱聚类)





8. Principal component analysis (PCA, 主成分分析, Dimension Reduction, 维度压缩)  高维数据







半监督 (Semi-supervised)


Collective anomaly anlaysis (聚集的奇点分析)





优缺点说明


有监督

优点:

  1. 能进一步区分outlier的更细的类别

  2. 对于新增数据不需要重新计算


缺点:

  1. 要求有大量的标记数据集

  2. 不能捕捉未知outlier

  3. 部分分类算法不能给定是outlier的可能性


无监督

优点:

  1. 不需要已标记数据

  2. 能够给定outlier额外的距离,或者概率信息


缺点:

  1. 对样本的采集有很高要求, 要求样本分布和真是分布一直。

  2. 对于分布复杂的数据有一定局限性。

  3. 对聚类算法本身过于敏感

  4. 新数据来的计算量会比较大。


半监督

优点:

  1. 能够兼顾有监督和无监督的优点


缺点:

  1. 没有固定的算法

  2. 需要领域背景知识



机器学习  VS  经典统计


经典统计

优点:

  1. 统计正确,容易解释

  2. 可以看成无监督过程


缺点:

  1. 对样本和假设检验的设定要求高

  2. 对于复杂结构的数据难以处理


机器学习:

优点:

  1. 可用的方法选择多, 大量现有工具

  2. 适用的数据范围广

  

缺点:

1. 存在可解释性的问题





欢迎参加【杭州站】Python大数据分析培训

8月18日-22日


扫描下方二维码了解更多



登录查看更多
1

相关内容

专知会员服务
139+阅读 · 2020年5月19日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
340+阅读 · 2020年3月17日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
129+阅读 · 2020年3月15日
机器学习速查手册,135页pdf
专知会员服务
341+阅读 · 2020年3月15日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
199+阅读 · 2020年2月11日
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
人工智能学家
11+阅读 · 2019年2月15日
图解机器学习的常见算法
机器学习算法与Python学习
5+阅读 · 2018年4月2日
动手写机器学习算法:SVM支持向量机(附代码)
七月在线实验室
12+阅读 · 2017年12月5日
图解机器学习
深度学习世界
3+阅读 · 2017年11月24日
BAT题库 | 机器学习面试1000题系列(第211~215题)
七月在线实验室
9+阅读 · 2017年11月22日
【直观详解】支持向量机SVM
机器学习研究会
18+阅读 · 2017年11月8日
机器学习(19)之支持向量回归机
机器学习算法与Python学习
12+阅读 · 2017年10月3日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
机器学习(15)之支持向量机原理(一)线性支持向量机
机器学习算法与Python学习
6+阅读 · 2017年9月1日
机器学习算法比较
我爱机器学习
4+阅读 · 2016年12月11日
Learning Dynamic Routing for Semantic Segmentation
Arxiv
8+阅读 · 2020年3月23日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
5+阅读 · 2018年5月21日
VIP会员
相关VIP内容
专知会员服务
139+阅读 · 2020年5月19日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
340+阅读 · 2020年3月17日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
129+阅读 · 2020年3月15日
机器学习速查手册,135页pdf
专知会员服务
341+阅读 · 2020年3月15日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
199+阅读 · 2020年2月11日
相关资讯
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
人工智能学家
11+阅读 · 2019年2月15日
图解机器学习的常见算法
机器学习算法与Python学习
5+阅读 · 2018年4月2日
动手写机器学习算法:SVM支持向量机(附代码)
七月在线实验室
12+阅读 · 2017年12月5日
图解机器学习
深度学习世界
3+阅读 · 2017年11月24日
BAT题库 | 机器学习面试1000题系列(第211~215题)
七月在线实验室
9+阅读 · 2017年11月22日
【直观详解】支持向量机SVM
机器学习研究会
18+阅读 · 2017年11月8日
机器学习(19)之支持向量回归机
机器学习算法与Python学习
12+阅读 · 2017年10月3日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
机器学习(15)之支持向量机原理(一)线性支持向量机
机器学习算法与Python学习
6+阅读 · 2017年9月1日
机器学习算法比较
我爱机器学习
4+阅读 · 2016年12月11日
Top
微信扫码咨询专知VIP会员