何时线性回归，聚类或决策树？

会员服务 ·

何时线性回归，聚类或决策树？

2018 年 2 月 22 日 云栖社区

云栖君导读：机器学习算法介绍那么多？但是，到底如何根据不同的场景，应用选择它们呢？且来听听大牛怎么说！

许多文章简单的定义了决策树，聚类和线性回归，以及它们之间的差异，但是他们往往忽视了在哪里使用这些算法。

决策树，聚类和线性回归算法之间的差异已经在许多文章中得到了阐述。但是，这些算法可以使用在什么地方并不是很清楚。通过这篇博文，我解释了在哪里可以使用这些机器学习算法，以及在为你的需求选择特定算法时需要考虑哪些因素。

一、线性回归用例

线性回归的一些用途：

产品的销售，定价和风险参数。
产生对消费者行为，盈利能力和其他商业因素的见解。
评估趋势，做出估计和预测。
确定产品的营销效果，定价和促销。
评估金融服务和保险的风险。
从汽车测试数据研究发动机的性能。
计算生物系统参数之间的因果关系。
进行市场调查研究和客户调查结果分析。
天文数据分析。
随着房屋面积的增加预测房价。

线性回归经常用于一些案例包括股票交易，视频游戏，体育博彩和飞行时间预测。

二、决策树用例：

决策树的一些用途：

建立客户服务知识管理平台，提高首次呼叫解决率，平均处理时间和客户满意率。
在财务方面，预测未来的财务并给出这些结果出现的概率。
二项期权定价预测与实物期权分析。
客户愿意在给定的环境下购买给定的产品，即离线和在线两种。
产品规划，例如，**产品公司（Gerber Products，Inc.）使用决策树来决定是否继续为制造玩具规划PVC。
一般商业决策。
贷款批准。

三、集群用例

聚类算法的一些用途：

客户细分。
利用物理尺度对物种进行分类。
产品分类。
电影推荐。
在特定区域放置蜂窝塔的位置。
考虑到一个地区最容易发生事故的地区的因素，设置紧急病房。
属性数量的影响。

四、如何选择合适的机器学习算法？

现在你已经了解了这些机器学习算法的具体用例，接下来让我们讨论如何根据需要选择完美的机器学习算法。

4.1线性回归选择标准：

首先，让我们来谈谈分类和回归功能、错误率、数据兼容性、数据质量、计算复杂性、可理解性和透明度等这些因素对算法的影响。

分类和回归功能：

回归模型拥有预测了一个连续变量，例如一天的销售量或预测城市的温度。

在建立分类功能时，他们依赖多项式（如直线）来拟合数据集，这是一个真正的挑战。让我们想象一下，你想添加另一个数据点，但为了适应它，你需要改变你现有的模型（也可能是阈值本身）。因此，线性回归对于分类模型并不好。

错误率：

在减少错误率方面，线性回归比其他算法弱。

数据兼容性：

线性回归依赖于连续数据来建立回归功能。

数据质量：

每个缺失的值将删除一个可以优化回归的数据点。在简单线性回归中，异常值可能会显着破坏结果。

计算复杂性：

与决策树和聚类算法相比，线性回归通常在计算上不复杂。复杂的N个训练样例和X的顺序通常设有落在或者是O（X2），O（XN），或O-（C3）。

易于理解和透明：

它们很容易理解和透明的性质。它们可以用简单的数学符号表示给任何人，而且可以很容易被理解。

4.2决策树选择标准：

决策树是将对象分类的一种方法。他们是一种监督学习的形式。

聚类算法可以进一步分类为“急切学习者”，因为他们首先在训练数据集上建立分类模型，然后实际分类测试数据集。这种决策树的本质就是要学习并渴望对未见的观察结果进行分类，这就是为什么他们被称为“渴望学习者”的原因。

分类和回归能力:

决策树与另外两种类型的任务兼容——回归以及分类。

计算量:

由于决策树具有内存分类模型，因此它们不会带来高昂的计算成本，因为它们不需要频繁的数据库查找。

易于理解和透明：

它们被银行广泛用于贷款审批，仅仅是因为其基于规则的决策极其透明。

数据质量：

决策树能够处理高度错误和缺失值的数据集。

增量学习：

随着决策树分批工作，他们一次对一组训练观察进行建模。因此，他们不适合增量学习。

错误率：

它们的错误率相对较高，但比线性回归要好。

数据兼容性：

决策树可以处理具有数字和标称输入属性的数据。

属性数量的影响：

如果存在复杂的、人为的无形因素，这些算法往往会产生错误的结果。例如，在客户细分等情况下，很难想象决策树会返回准确的细分。

4.3聚类算法选择标准：

聚类算法通常用于找出主题在多个不同变量上的相似程度。他们是无监督学习的一种形式。

然而，聚类算法不是“急切的学习者”，而是直接从训练实例中学习。他们只有在得到测试观察分类后才开始处理数据。

分类和回归功能：

聚类算法不能用于回归任务。

数据处理能力：

聚类可以处理大多数类型的数据集并忽略缺失的值。

数据集质量：

它们与连续和阶乘数据值一起工作良好。

易于理解和透明：

与决策树不同，聚类算法通常不会带来相同水平的理解和透明度。通常，他们需要为决策者提供大量的实施级解释。

计算费用：

聚类算法通常需要频繁的数据库查找。因此，它们通常可能在计算上是昂贵的。

增量学习：

聚类自然地支持增量学习，并且是线性回归和决策树的首选。

错误率：

聚类测试错误率更接近于贝叶斯分类器。

属性数量的影响：

凭借其处理复杂任意边界的能力，与决策树不同，它们可以处理多个属性和复杂的交互。

我希望上述讲解可以帮助你开始使用这些算法！

本文由阿里云云栖社区组织翻译。

文章原标题《decision-trees-vs-clustering-algorithms-vs-linear》

作者：Parikshit Joshi

译者：虎说八道。

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【经典书】算法基础：打开算法之门，Algorithm unlocked，237页pdf

专知会员服务

147+阅读 · 2020年7月3日

【经典书】机器学习：贝叶斯和优化方法，1075页pdf

专知会员服务

414+阅读 · 2020年6月8日

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

专知会员服务

317+阅读 · 2020年5月28日

【哈佛大学】机器学习的黑盒解释性，52页ppt

专知会员服务

172+阅读 · 2020年5月27日

规则就够用？还是必须上机器学习？这46页ppt教你如何把规则引擎和机器学习融会贯通

专知会员服务

57+阅读 · 2020年3月22日

【干货书】机器学习Python实战教程，366页pdf

专知会员服务

346+阅读 · 2020年3月17日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具

专知会员服务

103+阅读 · 2020年3月8日

【金融机器学习课程资料】Financial Machine Learning

专知会员服务

119+阅读 · 2019年12月24日

宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知会员服务

24+阅读 · 2019年10月20日

一文读懂机器学习中的贝叶斯统计学

数据分析

26+阅读 · 2019年5月8日

博客 | 回归类算法最全综述及逻辑回归重点讲解

AI研习社

13+阅读 · 2018年11月29日

教程 | 算法太多挑花眼？教你如何选择正确的机器学习算法

机器之心

9+阅读 · 2018年7月1日

用Python实现线性回归，8种方法哪个最高效？

七月在线实验室

7+阅读 · 2018年4月19日

决策树

Datartisan数据工匠

4+阅读 · 2018年4月19日

机器学习开放课程（三）：分类、决策树和K近邻

论智

3+阅读 · 2018年4月9日

哪个才是解决回归问题的最佳算法？线性回归、神经网络还是随机森林？

AI100

7+阅读 · 2018年3月8日

最适合机器学习新手的10种算法

论智

9+阅读 · 2018年1月23日

推荐系统机器学习算法概览

论智

7+阅读 · 2017年12月14日

一文解读聚类中的两种流行算法

量子位

6+阅读 · 2017年11月20日

Hierarchical Inter-Message Passing for Learning on Molecular Graphs

Arxiv

5+阅读 · 2020年6月22日

Meta-Learning to Cluster

Arxiv

18+阅读 · 2019年10月30日

Summit: Scaling Deep Learning Interpretability by Visualizing Activation and Attribution Summarizations

Arxiv

4+阅读 · 2019年9月2日

NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection

Arxiv

7+阅读 · 2019年4月16日

Sogou Machine Reading Comprehension Toolkit

Arxiv

8+阅读 · 2019年3月28日

Learning under Misspecified Objective Spaces

Arxiv

3+阅读 · 2018年10月11日

Nonlinear Metric Learning through Geodesic Polylinear Interpolation (ML-GPI)

Arxiv

4+阅读 · 2018年5月15日

Feasibility Based Large Margin Nearest Neighbor Metric Learning

Arxiv

3+阅读 · 2018年5月2日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

Dr.VAE: Drug Response Variational Autoencoder

Arxiv

3+阅读 · 2017年7月6日

VIP会员

何时线性回归，聚类或决策树？

相关内容

知识荟萃

更多