会员服务 ·

【算法】图解十大经典的机器学习算法

2017 年 11 月 2 日 产业智能官 赛氪

弱人工智能近几年取得了重大突破，悄然间，已经成为每个人生活中必不可少的一部分。以我们的智能手机为例，看看到底温藏着多少人工智能的神奇魔术。

下图是一部典型的智能手机上安装的一些常见应用程序，可能很多人都猜不到，人工智能技术已经是手机上很多应用程序的核心驱动力。

图1 智能手机上的相关应用

传统的机器学习算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。这篇文章将对常用算法做常识性的介绍，没有代码，也没有复杂的理论推导，就是图解一下，知道这些算法是什么，它们是怎么应用的。

人工智能领域知识面广泛，推荐专注于人工智能在线教育的平台—深蓝学院。深蓝学院由中科院自动化所毕业博士团队创建，虽成立半年，但在业界已颇具口碑。

决策树

根据一些 feature（特征）进行分类，每个节点提一个问题，通过判断，将数据分为两类，再继续提问。这些问题是根据已有数据学习出来的，再投入新数据的时候，就可以根据这棵树上的问题，将数据划分到合适的叶子上。

图2 决策树原理示意图

随机森林

在源数据中随机选取数据，组成几个子集：

图3-1 随机森林原理示意图

S矩阵是源数据，有1-N条数据，A、B、C 是feature，最后一列C是类别：

由S随机生成M个子矩阵：

这M个子集得到 M 个决策树：将新数据投入到这M个树中，得到M个分类结果，计数看预测成哪一类的数目最多，就将此类别作为最后的预测结果。

图3-2 随机森林效果展示图

逻辑回归

当预测目标是概率这样的，值域需要满足大于等于0，小于等于1的，这个时候单纯的线性模型是做不到的，因为在定义域不在某个范围之内时，值域也超出了规定区间。

图4-1 线性模型图

所以此时需要这样的形状的模型会比较好：

图4-2

那么怎么得到这样的模型呢？

这个模型需要满足两个条件 “大于等于0”，“小于等于1” 。大于等于0 的模型可以选择绝对值，平方值，这里用指数函数，一定大于0；小于等于1 用除法，分子是自己，分母是自身加上1，那一定是小于1的了。

图4-3

再做一下变形，就得到了 logistic regressions 模型：

图4-4

通过源数据计算可以得到相应的系数了：

图4-5

图4-6 LR模型曲线图

支持向量机

要将两类分开，想要得到一个超平面，最优的超平面是到两类的 margin 达到最大，margin就是超平面与离它最近一点的距离，如下图，Z2>Z1，所以绿色的超平面比较好。

图5 分类问题示意图

将这个超平面表示成一个线性方程，在线上方的一类，都大于等于1，另一类小于等于－1：

点到面的距离根据图中的公式计算：

所以得到total margin的表达式如下，目标是最大化这个margin，就需要最小化分母，于是变成了一个优化问题：

举个例子，三个点，找到最优的超平面，定义了 weight vector＝（2，3）－（1，1）：

得到weight vector为（a，2a），将两个点代入方程，代入（2，3）另其值＝1，代入（1，1）另其值＝-1，求解出 a 和截矩 w0 的值，进而得到超平面的表达式。

a求出来后，代入（a，2a）得到的就是support vector，a和w0代入超平面的方程就是support vector machine。

朴素贝叶斯

举个在 NLP 的应用：给一段文字，返回情感分类，这段文字的态度是positive，还是negative：

图6-1 问题案例

为了解决这个问题，可以只看其中的一些单词：

这段文字，将仅由一些单词和它们的计数代表：

原始问题是：给你一句话，它属于哪一类？通过bayes rules变成一个比较简单容易求得的问题：

问题变成，这一类中这句话出现的概率是多少，当然，别忘了公式里的另外两个概率。例子：单词“love”在positive的情况下出现的概率是 0.1，在negative的情况下出现的概率是0.001。

图6-2 NB算法结果展示图

K近邻算法

给一个新的数据时，离它最近的 k 个点中，哪个类别多，这个数据就属于哪一类。

例子：要区分“猫”和“狗”，通过“claws”和“sound”两个feature来判断的话，圆形和三角形是已知分类的了，那么这个“star”代表的是哪一类呢？

图7-1 问题案例

k＝3时，这三条线链接的点就是最近的三个点，那么圆形多一些，所以这个star就是属于猫。

图7-2 算法步骤展示图

K均值算法

先要将一组数据，分为三类，粉色数值大，黄色数值小。最开始先初始化，这里面选了最简单的 3，2，1 作为各类的初始值。剩下的数据里，每个都与三个初始值计算距离，然后归类到离它最近的初始值所在类别。

图8-1 问题案例

分好类后，计算每一类的平均值，作为新一轮的中心点：

图8-2

几轮之后，分组不再变化了，就可以停止了：

图8-3 算法结果展示

Adaboost

Adaboost 是 Boosting 的方法之一。Boosting就是把若干个分类效果并不好的分类器综合起来考虑，会得到一个效果比较好的分类器。

下图，左右两个决策树，单个看是效果不怎么好的，但是把同样的数据投入进去，把两个结果加起来考虑，就会增加可信度。

图9-1 算法原理展示

Adaboost 的例子，手写识别中，在画板上可以抓取到很多features（特征），例如始点的方向，始点和终点的距离等等。

图9-2

training的时候，会得到每个feature的weight（权重），例如2和3的开头部分很像，这个feature对分类起到的作用很小，它的权重也就会较小。

图9-3

而这个alpha角就具有很强的识别性，这个feature的权重就会较大，最后的预测结果是综合考虑这些feature的结果。

图9-4

神经网络

Neural Networks适合一个input可能落入至少两个类别里：NN由若干层神经元，和它们之间的联系组成。第一层是input层，最后一层是output层。在hidden层和output层都有自己的classifier。

图10-1 神经网络结构

input输入到网络中，被激活，计算的分数被传递到下一层，激活后面的神经层，最后output层的节点上的分数代表属于各类的分数，下图例子得到分类结果为class 1；同样的input被传输到不同的节点上，之所以会得到不同的结果是因为各自节点有不同的weights 和bias，这也就是forward propagation。

图10-2 算法结果展示

马尔科夫

Markov Chains由state（状态）和transitions（转移）组成。例子，根据这一句话 ‘the quick brown fox jumps over the lazy dog’，要得到markov chains。

步骤，先给每一个单词设定成一个状态，然后计算状态间转换的概率。

图11-1 马尔科夫原理图

这是一句话计算出来的概率，当你用大量文本去做统计的时候，会得到更大的状态转移矩阵，例如the后面可以连接的单词，及相应的概率。

图11-2 算法结果展示

上述十大类机器学习算法是人工智能发展的践行者，即使在当下，依然在数据挖掘以及小样本的人工智能问题中被广泛使用。

聚类理论学习小结

来源：老妖看世界

聚类是一个将数据集划分为若干个子集的过程，并使得同一集合内的数据对象具有较高的相似度，而不同集合中的数据对象则是不相同的，相似或不相似的度量是基于数据对象描述属性的聚类值来确定的，通常就是利用各个聚类间的距离来进行描述的。聚类分析的基本指导思想是最大程度地实现类中对象相似度最大，类间对象相似度最小。

聚类与分类不同，在分类模型中，存在样本数据，这些数据的类标号是已知的，分类的目的是从训练样本集中提取出分类的规则，用于对其他标号未知的对象进行类标识。在聚类中，预先不知道目标数据的有关类的信息，需要以某种度量为标准将所有的数据对象划分到各个簇中。因此，聚类分析又称为无监督的学习。

基本过程

数据准备：包括特征标准化和降维。
特征选择、提出：从最初的特征中选择是有效的特征，并将其存储于向量中。
特征提取：通过对所选择的特征进行转换，形成新的突出特征。
聚类（或分组）：首先选择合适特征类型的某种距离函数（或构造新的距离函数）进行接近程度的度量，然后执行聚类或分组。

基本要求

可扩展性。许多聚类算法在小数据集（少于200个数据对象）时可以工作很好；但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类分析可能得到一个有偏差的结果，这时就需要可扩展的聚类分析算法。
处理不同类型属性的能力。许多算法是针对基于区间的数值属性而设计的。但是有些应用需要对实类型数据。如：二值类型、符号类型、顺序类型，或这些数据类型的组合。
发现任意形状的聚类。许多聚类算法是根据欧氏距离和Manhattan距离来进行聚类的。基于这类距离的聚类方法一般只能发现具有类似大小和密度的圆形或球状聚类。而实际一个聚类是可以具有任意形状的，因此设计能够发现任意开关类集的聚类算法是非常重要的。
需要（由用户）决定的输入参数最少。许多聚类算法需要用户输入聚类分析中所需要的一些参数（如：期望所获得聚类的个数）。而聚类结果通常都与输入参数密切相关；而这些参数常常也很难决定，特别是包含高维对象的数据集。这不仅构成了用户的负担，也使得聚类质量难以控制。
处理噪声数据的能力。大多数现实世界的数据库均包含异常数据、不明数据、数据丢失和噪声数据，有些聚类算法对这样的数据非常敏感并会导致获得质量较差的数据。
对输入记录顺序不敏感。一些聚类算法对输入数据的顺序敏感，也就是不同的数据输入顺序会导致获得非常不同的结果。因此设计对输入数据顺序不敏感的聚类算法也是非常重要的。
高维问题。一个数据库或一个数据仓库或许包含若干维属性。许多聚类算法在处理低维数据时（仅包含二到三个维）时表现很好，然而设计对高维空间中的数据对象，特别是对高维空间稀疏和怪异分布的的数据对象，能进行较好聚类分析的聚类算法已成为聚类研究中的一项挑战。
基于约束的聚类。现实世界中的应用可能需要在各种约束之下进行聚类分析。假设需要在一个城市中确定一些新加油站的位置，就需要考虑诸如：城市中的河流、调整路，以及每个区域的客户需求等约束情况下居民住地的聚类分析。设计能够发现满足特定约束条件且具有较好聚类质量的聚类算法也是一个重要聚类研究任务。
可解释性和可用性。用户往往希望聚类结果是可理解的、可解释的，以及可用的，这就需要聚类分析要与特定的解释和应用联系在一起。因此研究一个应用的目标是如何影响聚类方法选择也是非常重要的。

主要的聚类算法

随着人们对数据挖掘的深入研究和了解，各种聚类算法的改进算法也相继提出，很多新算法在前人提出的算法中做了某些方面的提高和改进，且很多算法是有针对性地为特定的领域而设计。我们必须清楚地了解各种算法的优缺点和应用范围，根据实际问题选择合适的算法。

基于层次的聚类算法

基于层次的聚类算法对给定数据对象进行层次上的分解，可分为凝聚算法和分裂算法。

自底向上的凝聚聚类方法。这种策略是以数据对象作为原子类，然后将这些原子类进行聚合。逐步聚合成越来越大的类，直到满足终止条件。凝聚算法的过程为：在初始时，每一个成员都组成一个单独的簇，在以后的迭代过程中，再把那些相互邻近的簇合并成一个簇，直到所有的成员组成一个簇为止。其时间和空间复杂性均为O(n2)。通过凝聚式的方法将两簇合并后，无法再将其分离到之前的状态。在凝聚聚类时，选择合适的类的个数和画出原始数据的图像很重要。
自顶向下分裂聚类方法。与凝聚法相反，该法先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到了某个终结条件。其主要思想是将那些成员之间不是非常紧密的簇进行分裂。跟凝聚式方法的方向相反，从一个簇出发，一步一步细化。它的优点在于研究者可以把注意力集中在数据的结构上面。一般情况下不使用分裂型方法，因为在较高的层很难进行正确的拆分

基于密度的聚类算法

很多算法都使用距离来描述数据之间的相似性，但对于非凸数据集，只用距离来描述是不够的。此时可用密度来取代距离描述相似性，即基于密度的聚类算法。它不是基于各种各样的距离，所以能克服基于距离的算法只能发现“类圆形”的聚类的缺点。其指导思想是：只要一个区域中的点的密度（对象或数据点的数目）大过某个阈值，就把它加到与之相近的聚类中去。该法从数据对象的分布密度出发，把密度足够大的区域连接起来，从而可发现任意形状的簇，并可用来过滤“噪声”数据。常见算法有DBSCAN，DENCLUE等

基于划分的聚类算法

给定一个N个对象的元组或数据库，根据给定要创建的划分的数目k，将数据划分为k个组，每个组表示一个簇类（<=N）时满足如下两点：

(1)每个组至少包含一个对象；

(2)每个对象必须属于且只属于一个组。

算法先随机创建一个初始划分，然后采用一种迭代的重定位技术，通过将对象根据簇类之间的差异从一个划分移到另一个划分来提高簇类内数据之间的相似程度。一种好的划分的一般

准则是：在同一个类中的对象尽可能“接近”或相似，而不同类中的对象尽可能“远离”或不同。为了达到全局最优，基于划分的聚类会要求穷举所有可能的划分。典型的划包括：K-means，PAM，EM等。划分法收敛速度快，在对中小规模的数据库中发现球状簇很适用。缺点是它倾向于识别凸形分布大小相近、密度相近的聚类，不能发现分布形状比较复杂的聚类，它要求类别数目k可以合理地估计，且初始中心的选择和噪声会对聚类结果产生很大影响。还要求用户预先指定聚类个数。

基于网格的聚类算法

首先将数据空间量化为有限个单元的网格结构，然后对量化后的单个的单元为对象进行聚类。典型的算法有STING，CLIQUE等。网格聚类法处理速度快，处理时间与数据对象的数目无关，一般由网格单元的数目决定。缺点是只能发现边界是水平或垂直的聚类，不能检测到斜边界。该类算法也不适用于高维情况，因为网格单元的数目随着维数的增加而呈指数增长。另外还有下列问题：一是如何选择合适的单元大小和数目，二是怎样对每个单元中对象的信息进行汇总，三是存在量化尺度的问题。

基于模型的聚类算法

基于模型的方法给每一个聚簇假定了一个模型，然后去寻找能够很好满足这个模型的数据集。这个模型可能是数据点在空间中的密度分布函数，它由一系列的概率分布决定，也可能通过基于标准的统计数字自动决定聚类的数目。它的一个潜在假定是：目标数据集是由一系列的概率分布所决定的。一般有2种尝试方向：统计的方案和神经网络的方案。COBWEB是一种流行的简单增量概念聚类算法，以一个分类树的形式来创建层次聚类，它的输入对象用分类属性-值对来描述。COBWEB的优点为：可以自动修正划分中类的数目；不需要用户提供输入参数。缺点为：COBWEB基于这样一个假设：在每个属性上的概率分布是彼此独立的。但这个假设并不总是成立。且对于偏斜的输入数据不是高度平衡的，它可能导致时间和空间复杂性的剧烈变化，不适用于聚类大型数据库的数据。

模糊聚类算法

现实中很多对象没有严格的属性，其类属和形态存在着中介性，适合软划分。恰好模糊聚类具有描述样本类属中间性的优点，因此成为当今聚类分析研究的主

流。常用的模糊聚类有动态直接聚类法、最大树法、FCM等。基本原理为：假设有N个要分析的样本，每个样本有M个可量化的指标，一般步骤为：

(1)标准化数据：常用的数据标准化方法有：小数定标规范化，最大最小值规范化，标准差规范化等。

(2)建立模糊相似矩阵，标定相似系数。

(3)计算多极相似矩阵，计算整体相似关系矩阵，有传递闭包法，动态直接聚类法，最大树法等。

(4)给定一个聚类水平，计算绝对相似矩阵，按行列调整绝对相似矩阵，每个分块即为一个分类。

其它聚类算法

基于群的聚类方法
该法是进化计算的一个分支，模拟了生物界中蚁群、鱼群等在觅食或避敌时的行为。可分为蚁群算法ACO和PSO。蚁群聚类算法的许多特性，如灵活性、健壮性、分布性和自组织性等，使其非常适合本质上是分布、动态及又要交错的问题求解中，能解决无人监督的聚类问题，具有广阔的前景。PSO模拟了鱼群或鸟群的行为。在优化领域，PSO可以与遗传算法相媲美，并在预测精度和运行速度方面占优势。对ACO或PSO在数据挖掘中应用的研究仍处于早期阶段，要将这些方法用到实际的大规模数据挖掘的聚类分析中还需要做大量的研究工作。
基于粒度的聚类方法
从粒度的角度看，我们会发现聚类和分类有很大的相通之处：聚类操作实际上是在一个统一粒度下进行计算的；分类操作是在不同粒度下进行的。所以说在粒度原理下，聚类和分类是相通的，很多分类的方法也可以用在聚类方法中。作为一个新的研究方向，虽然目前粒度计算还不成熟，尤其是对粒度计算语义的研究还相当少，但相信随着粒度理论的不断发展，今后几年它必将在聚类算法及其相关领域得到广泛的应用。
谱聚法
谱聚类方法建立在谱图理论基础之上，并利用数据的相似矩阵的特征向量进行聚类，是一种基于两点间相似关系的方法，这使得该方法适用于非测度空间。它与数据点的维数无关，而仅与数据点的个数有关，可以避免由特征向量的过高维数所造成的奇异性问题。它又是一个判别式算法，不用对数据的全局结构作假设，而是首先收集局部信息来表示两点属于同一类的可能性；然后根据某一聚类判据作全局决策，将所有数据点划分到不同的数据集合中。通常这样的判据可以在一个嵌入空间中得到解释，该嵌入空间是由数据矩阵的某几个特征向量张成的。谱聚类算法成功原因在于：通过特征分解，可以获得聚类判据在放松了的连续域中的全局最优解。与其他算法相比，它不仅思想简单、易于实现、不易陷入局部最优解，而且具有识别非凸分布的聚类能力，非常适合于许多实际问题。目前，该算法已应用于语音识别、VLSI设计、文本挖掘等领域。
多种聚类方法的融合
实际应用的复杂性和数据的多样性往往使得单一的算法无能为力。因此，很多人对多种算法的融合进行了广泛研究并取得了一些成果。大致可分为以下几类：

(1)基于传统聚类方法的融合，如CLIQUE、CUBN等。

(2)模糊理论与其他聚类法的融合，如遗传＋模糊C2均值混合聚类法等。

(3)遗传算法与机器学习的融合。

(4)传统聚类法与其他学科理论的融合，如谱算法等。

总之，很多新算法是以上几类方法中两种或两种以上方法有机结合而得的，它们取长补短，优势明显，这也是我们数据挖掘研究人员要努力的研究方向之一。

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。