【机器学习】机器学习--开启智能创新之门！

2017 年 11 月 20 日 产业智能官 智能制造IM

导读

人工智能大师西蒙曾说过：“学习就是系统在不断重复的工作中对本身能力的增强或者改进，使得系统在下一次执行同样任务或类似任务时，会比现在做得更好或效率更高。”

文/ e-works原创专题

机器学习是人工智能应用的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。现有的计算机系统和人工智能系统至多也只有非常有限的学习能力，因而不能满足科技和生产提出的新要求。对机器学习的讨论和研究，必将促使人工智能和整个科学技术的进一步发展。

发展背景：人工智能正在崛起

人工智能（Artificial Intelligence，缩写为AI）是对人的意识、思维过程进行模拟的一门新学科。如今，人工智能从虚无缥缈的科学幻想变成了现实。计算机科学家们在人工智能的技术核心——机器学习（Machine Learning）和深度学习（Deep Learning）领域上已经取得重大的突破，机器被赋予强大的认知和预测能力。

回顾历史，在1997年，IBM“深蓝”战胜国际象棋冠军卡斯帕罗夫；在2011年，具备机器学习能力的IBM Waston参加综艺节目赢得100万美金；在2016年，利用深度学习训练的Alphago成功击败人类世界冠军。种种事件表明机器也可以像人类一样思考，甚至比人类做得更好。

目前，人工智能在金融、医疗、制造等行业得到了广泛应用，全球投资从2012年的5.89亿美元猛增至2016年50多亿美元。麦肯锡预计，到2025年人工智能应用市场的总值将达到1270亿美元。

与此同时，麦肯锡通过对2016年人工智能市场的投资进行深入分析，发现有将近60%的资金并购围绕机器学习来布局。其中，基于软件的机器学习初创公司比基于机器的机器人公司更受投资欢迎。从2013 年到2016 年，这一领域的投资复合年均增长率达到约80％。由此可见，机器学习已经成为目前人工智能技术发展的主要方向。

机器学习与人工智能、深度学习之间的关系

在介绍机器学习之前，先需要对人工智能、机器学习和深度学习三者之间的关系进行梳理。目前业界最常见的划分是：

人工智能是使用与传统计算机系统完全不同的工作模式，它可以依据通用的学习策略，读取海量的“大数据”，并从中发现规律、联系和洞见，因此人工智能能够根据新数据自动调整，而无需重设程序。

机器学习是人工智能研究的核心技术，在大数据的支撑下，通过各种算法让机器对数据进行深层次的统计分析以进行“自学”；利用机器学习，人工智能系统获得了归纳推理和决策能力；而深度学习更将这一能力推向了更高的层次。

深度学习则是机器学习算法的一种，隶属于人工神经网络体系，现在很多应用领域中性能最佳的机器学习都是基于模仿人类大脑结构的神经网络设计而来的，这些计算机系统能够完全自主地学习、发现并应用规则。相比较其他方法，在解决更复杂的问题上表现更优异，深度学习是可以帮助机器实现“独立思考”的一种方式。

总而言之，人工智能是社会发展的重要推动力，而机器学习，尤其是深度学习技术就是人工智能发展的核心，它们三者之间是包含与被包含的关系。

什么是机器学习？

从广义上来说，机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。

机器学习关键词：实现人工智能的核心技术，总结经验，发现规律，掌握规则，预测未来。

机器学习发展历程图

机器学习的结构模型

机器学习工作流程

机器学习关键基石

一个短片了解机器学习

机器学习的算法分类

有监督学习

数据有标签
直接反馈
预测未来结果
解决分类和回归问题

无监督学习

无标签
无反馈
寻找隐藏的结构
解决聚类和降维问题

强化学习

决策流程
激励系统
感知环境反馈
解决序列任务的问题

机器学习过程举例分析

所谓机器学习过程，是指观察有n个样本数据组成的集合，并根据这些数据来预测未知数据的性质，那么在给定数据集（所谓大数据）和具体问题的前提下，一般解决问题的步骤可以概括如下：

点击图片看大图

机器学习覆盖的范围

从范围上来说，机器学习跟模式识别，统计学习，数据挖掘是类似的，同时，机器学习与其他领域的处理技术的结合，形成了计算机视觉、语音识别、自然语言处理等交叉学科。

因此，一般说数据挖掘时，可以等同于说机器学习。同时，我们平常所说的机器学习应用，应该是通用的，不仅仅局限在结构化数据，还有图像，音频等应用。

机器学习中的工业制造场景

机器学习作为人工智能的最有效的实现方法，已经在工业制造等众多场景中得到了广泛应用。

机器学习中的日常生活场景

机器学习的未来：深度学习

深度学习发展的领域

工业机器人
人脸识别
图像增强
图片摘要
语音处理

机器学习厂商版图

以上是专题简略版，详细内容请点击底部阅读原文链接查看！

从线性回归到无监督学习，数据科学家需要掌握的十大统计技术

选自KDnuggets

作者：James Le

机器之心编译

参与：路雪、刘晓坤、蒋思源

「数据科学家比程序员擅长统计，比统计学家擅长编程。」本文介绍了数据科学家需要掌握的十大统计技术，包括线性回归、分类、重采样、降维、无监督学习等。

不管你对数据科学持什么态度，都不可能忽略分析、组织和梳理数据的重要性。Glassdoor 网站根据大量雇主和员工的反馈数据制作了「美国最好的 25 个职位」榜单，其中第一名就是数据科学家。尽管排名已经顶尖了，但数据科学家的工作内容一定不会就此止步。随着深度学习等技术越来越普遍、深度学习等热门领域越来越受到研究者和工程师以及雇佣他们的企业的关注，数据科学家继续走在创新和技术进步的前沿。

尽管具备强大的编程能力非常重要，但数据科学不全关于软件工程（实际上，只要熟悉 Python 就足以满足编程的需求）。数据科学家需要同时具备编程、统计学和批判思维能力。正如 Josh Wills 所说：「数据科学家比程序员擅长统计学，比统计学家擅长编程。」我自己认识很多软件工程师希望转型成为数据科学家，但是他们盲目地使用 TensorFlow 或 Apache Spark 等机器学习框架处理数据，而没有全面理解其背后的统计学理论知识。因此他们需要系统地研究统计机器学习，该学科脱胎于统计学和泛函分析，并结合了信息论、最优化理论和线性代数等多门学科。

为什么学习统计学习？理解不同技术背后的理念非常重要，它可以帮助你了解如何使用以及什么时候使用。同时，准确评估一种方法的性能也非常重要，因为它能告诉我们某种方法在特定问题上的表现。此外，统计学习也是一个很有意思的研究领域，在科学、工业和金融领域都有重要的应用。最后，统计学习是训练现代数据科学家的基础组成部分。统计学习方法的经典研究主题包括：

线性回归模型
感知机
k 近邻法
朴素贝叶斯法
决策树
Logistic 回归于最大熵模型
支持向量机
提升方法
EM 算法
隐马尔可夫模型
条件随机场

之后我将介绍 10 项统计技术，帮助数据科学家更加高效地处理大数据集的统计技术。在此之前，我想先厘清统计学习和机器学习的区别：

机器学习是偏向人工智能的分支。
统计学习方法是偏向统计学的分支。
机器学习更侧重大规模应用和预测准确率。
统计学系侧重模型及其可解释性，以及精度和不确定性。
二者之间的区别越来越模糊。

1. 线性回归

在统计学中，线性回归通过拟合因变量和自变量之间的最佳线性关系来预测目标变量。最佳拟合通过尽量缩小预测的线性表达式和实际观察结果间的距离总和来实现。没有其他位置比该形状生成的错误更少，从这个角度来看，该形状的拟合是「最佳」。线性回归的两个主要类型是简单线性回归和多元线性回归。

简单线性回归使用一个自变量通过拟合最佳线性关系来预测因变量的变化情况。多元线性回归使用多个自变量通过拟合最佳线性关系来预测因变量的变化趋势。

任意选择两个日常使用且相关的物体。比如，我有过去三年月支出、月收入和每月旅行次数的数据。现在我需要回答以下问题：

我下一年月支出是多少？
哪个因素（月收入或每月旅行次数）在决定月支出方面更重要？
月收入和每月旅行次数与月支出之间是什么关系？

2. 分类

分类是一种数据挖掘技术，为数据分配类别以帮助进行更准确的预测和分析。分类是一种高效分析大型数据集的方法，两种主要的分类技术是：logistic 回归和判别分析（Discriminant Analysis）。

logistic 回归是适合在因变量为二元类别的回归分析。和所有回归分析一样，logistic 回归是一种预测性分析。logistic 回归用于描述数据，并解释二元因变量和一或多个描述事物特征的自变量之间的关系。logistic 回归可以检测的问题类型如下：

体重每超出标准体重一磅或每天每抽一包烟对得肺癌概率（是或否）的影响。
卡路里摄入、脂肪摄入和年龄对心脏病是否有影响（是或否）？

在判别分析中，两个或多个集合和簇等可作为先验类别，然后根据度量的特征把一个或多个新的观察结果分类成已知的类别。判别分析对每个对应类中的预测器分布 X 分别进行建模，然后使用贝叶斯定理将其转换成根据 X 的值评估对应类别的概率。此类模型可以是线性判别分析（Linear Discriminant Analysis），也可以是二次判别分析（Quadratic Discriminant Analysis）。

线性判别分析（LDA）：为每个观察结果计算「判别值」来对它所处的响应变量类进行分类。这些分值可以通过找到自变量的线性连接来获得。它假设每个类别的观察结果都从多变量高斯分布中获取，预测器变量的协方差在响应变量 Y 的所有 k 级别中都很普遍。
二次判别分析（QDA）：提供另外一种方法。和 LDA 类似，QDA 假设 Y 每个类别的观察结果都从高斯分布中获取。但是，与 LDA 不同的是，QDA 假设每个类别具备自己的协方差矩阵。也就是说，预测器变量在 Y 的所有 k 级别中不是普遍的。

3. 重采样方法

重采样方法（Resampling）包括从原始数据样本中提取重复样本。这是一种统计推断的非参数方法。即，重采样不使用通用分布来逼近地计算概率 p 的值。

重采样基于实际数据生成一个独特的采样分布。它使用经验性方法，而不是分析方法，来生成该采样分布。重采样基于数据所有可能结果的无偏样本获取无偏估计。为了理解重采样的概念，你应该先了解自助法（Bootstrapping）和交叉验证（Cross-Validation）：

自助法（Bootstrapping）适用于多种情况，如验证预测性模型的性能、集成方法、偏差估计和模型方差。它通过在原始数据中执行有放回取样而进行数据采样，使用「未被选中」的数据点作为测试样例。我们可以多次执行该操作，然后计算平均值作为模型性能的估计。

交叉验证用于验证模型性能，通过将训练数据分成 k 部分来执行。我们将 k-1 部分作为训练集，「留出」的部分作为测试集。将该步骤重复 k 次，最后取 k 次分值的平均值作为性能估计。

通常对于线性模型而言，普通最小二乘法是拟合数据时主要的标准。下面 3 个方法可以提供更好的预测准确率和模型可解释性。

4. 子集选择

该方法将挑选 p 个预测因子的一个子集，并且我们相信该子集和所需要解决的问题十分相关，然后我们就能使用该子集特征和最小二乘法拟合模型。

最佳子集的选择：我们可以为 p 个预测因子的每个组合拟合单独的 OLS 回归，然后再考察各模型拟合的情况。该算法分为两个阶段：（1）拟合包含 k 个预测因子的所有模型，其中 k 为模型的最大长度；（2）使用交叉验证预测损失选择单个模型。使用验证或测试误差十分重要，且不能简单地使用训练误差评估模型的拟合情况，这因为 RSS 和 R^2 随变量的增加而单调递增。最好的方法就是通过测试集中最高的 R^2 和最低的 RSS 来交叉验证地选择模型。
前向逐步地选择会考虑 p 个预测因子的一个较小子集。它从不含预测因子的模型开始，逐步地添加预测因子到模型中，直到所有预测因子都包含在模型。添加预测因子的顺序是根据不同变量对模型拟合性能提升的程度来确定的，我们会添加变量直到再没有预测因子能在交叉验证误差中提升模型。
后向逐步选择先从模型中所有 p 预测器开始，然后迭代地移除用处最小的预测器，每次移除一个。
混合法遵循前向逐步方法，但是在添加每个新变量之后，该方法可能还会移除对模型拟合无用的变量。

5. Shrinkage

这种方法涉及到使用所有 p 个预测因子进行建模，然而，估计预测因子重要性的系数将根据最小二乘误差向零收缩。这种收缩也称之为正则化，它旨在减少方差以防止模型的过拟合。由于我们使用不同的收缩方法，有一些变量的估计将归零。因此这种方法也能执行变量的选择，将变量收缩为零最常见的技术就是 Ridge 回归和 Lasso 回归。

Ridge 回归非常类似于最小二乘法，只不过它通过最小化一个稍微不同的数值来估计系数。Ridge 回归和 OLS 一样寻求减少 RSS 的系数估计。然而当系数收缩逼近零值时，它们都会对这种收缩进行惩罚。我们不需要数学分析就能看出 Ridge 回归很擅长于将特征收缩到最小的可能空间中。如主成分分析，Ridge 回归将数据投影到 D 维空间，并在系数空间内收缩较低方差的成分而保留有较高方差的成分。
Ridge 回归至少有一个缺点，它需要包含最终模型所有 p 个预测因子，这主要是因为罚项将会令很多预测因子的系数逼近零，但又一定不会等于零。这对于预测准确度来说通常并不是什么问题，但却令模型的结果更难以解释。Lasso 就克服了这一缺点，因为它在 s 组后小的时候能迫使一些预测因子的系数归零。因为 s = 1 将导致正规的 OLS 回归，而当 s 逼近 0 时，系数将收缩到零。因此 Lasso 回归同样是执行变量选择的一个好方法。

6. 降维

降维算法将 p+1 个系数的问题简化为 M+1 个系数的问题，其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射（projection）。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归（principal component regression）和偏最小二乘法（partial least squares）。

主成分回归（PCR）可以看成一种从大型变量集合中导出低维特征集合的方法。数据中的第一主成分（first principal component）是指观察数据沿着这个变量方向的变化最大。换言之，第一主成分是最接近拟合数据的线，总共可以用 p 个不同的主成分拟合。第二主成分是和第一主成分不相关的变量的线性组合，且在该约束下有最大的方差。其主要思想是主成分能在各个互相垂直的方向使用数据的线性组合捕捉到最大的方差。使用这种方法，我们还能结合相关变量的效应从数据中获取更多的信息，毕竟在常规的最小二乘法中需要舍弃其中一个相关变量。
上面描述的 PCR 方法需要提取 X 的线性组合，以获得对的预测器的最优表征。由于 X 的输出 Y 不能不能用于帮助决定主成分方向，这些组合（方向）使用无监督方法提取。即，Y 不能监督主成分的提取，从而无法保证这些方向是预测器的最优表征，也无法保证能获得最优预测输出（虽然通常假定如此）。偏最小二乘法（PLS）是一种监督方法，作为 PCR 的代替方法。和 PCR 类似，PLS 也是一种降维方法，它首先提取一个新的较小的特征集合（原始特征的线性组合），然后通过最小二乘法将原来的模型拟合为一个新的具有 M 个特征的线性模型。

7. 非线性模型

在统计学中，非线性回归属于一种回归分析形式，其中，观测数据使用模型参数的非线性组合的函数（依赖于一个或多个独立变量）建模。其使用逐次逼近法拟合数据。下方是几种处理非线性模型的重要技术。

阶梯函数（step function），变量为实数，可以写成区间的指示函数的有限线性组合的形式。非正式的解释是，阶梯函数是一种分段常数函数，只有有限的部分。
分段函数（piecewise function）通过多个子函数定义，每一个子函数被定义在主函数定义域的确定的区间上。分段实际上是一种表示函数的方式，而不是函数自身的特征，但通过额外的限定条件，它可以用于描述函数的本质。例如，一个分段多项式函数是一个在每一个子定义上为多项式的函数，其中每一个多项式都可能是不同的。
样条曲线（spline）是一种用多项式分段定义的特殊函数。在计算机图形学中，样条曲线是一种分段多项式参数化曲线。由于结构的简单性、评估的简易和高精度、通过曲线拟合和交互曲线设计以逼近复杂曲线的能力，样条曲线很常用。
广义加性模型（generalized additive model）是一种广义线性模型，其中线性预测器线性依赖于某些预测器变量的未知平滑函数，其主要作用就是推测这些平滑函数。

8. 基于树的方法

基于树的方法可以用于回归和分类问题，包括将预测器空间分层或分割成几个简单区域。由于用于预测器空间的分离规则集合可以总结为一个树，这类方法被称为决策树方法。以下的方法是几种不同的树，它们可以组合起来输出单个一致的预测。

bagging 能减少预测的方差，即通过从原始数据中生成额外的数据（通过组合和重复生成和原始数据大小相同的多段数据）用于训练。通过增大训练集无法提高模型的预测能力，只能减小方差，仔细地调整预测以得到期望的输出。
boosting 是一种计算输出的方法，即使用多个不同的模型，然后使用加权平均的方法对结果取平均值。我们一般通过改变这些方法所占的权重而结合各方法的优势，此外，我们还可以使用不同的精细调整获得对更宽泛输入数据的预测能力。

随机森林算法（random forest algorithm）实际上和 bagging 算法很相似，同样是对训练集提取随机 bootstrap 样本。然而，除了 bootstrap 样本以外，还可以提取特征的随机子集以训练单个树；而在 bagging 中，需要给每个树提供整个特征集。由于特征选择是随机的，相比常规的 bagging 算法，每个树之间更加独立，从而通常能获得更好的预测性能（得益于更好的方差—偏差权衡）。且计算速度也更快，因为每个树只需要学习特征的一个子集。

9. 支持向量机

支持向量机（SVM）是一种常用的监督学习分类技术。通俗地说，它用于寻找对两类点集做出最佳分离的超平面（hyperplane，在 2D 空间中是线，在 3D 空间中是面，在高维空间中是超平面。更正式的说法是，一个超平面是一个 n 维空间的 n-1 维子空间）。而支持向量机是保留最大的间隔的分离超平面，因此本质上，它是一个约束最优化问题，其中支持向量机的间隔在约束下被最大化，从而完美地对数据进行分类（硬间隔分类器）。

那些「支持」着超平面的数据点被称为「支持向量」。在上图中，填充蓝色圆和两个填充方块就是支持向量。在两类数据不是线性可分的例子中，数据点将被投射到一个更高维空间中，使得数据变得线性可分。包含多个类别的数据点的问题可以分解成多个「一对一」（one-versus-one）或「一对剩余」（one-versus-rest）的二分类问题。

10. 无监督学习

目前为止，我们都只讨论过监督学习技术，其中数据分类都是已知的，且提供给算法的经验都是实体和其分类的关系。当数据的分类是未知的时候，就需要使用另一种技术了。它们被称为无监督的，因为它们需要自己去发现数据中的模式。聚类（clustring）是无监督学习的一种，其中数据将根据相关性被分为多个群集。下方是几种最常用的无监督学习算法：

主成分分析：通过保留具备最大方差和互相不相关的特征之间的线性连接，而帮助生成数据集的低维表示。该线性降维技术有助于理解无监督学习中的隐变量交互。
k 均值聚类：根据数据到集群中心的距离将其分成 k 个不同的集群。
层次聚类：通过数据的层级表示而构建不同的集群。

留给人类的时间不多了？现在不学机器学习更待何时！

机器学习（升级版Ⅶ）

课程目标：本课程特点是从数学层面推导最经典的机器学习算法，以及每种算法的示例和代码实现（Python）、如何做算法的参数调试、以实际应用案例分析各种算法的选择等。

主讲老师： 邹博小象学院签约讲师

计算机博士，现科学院从事科研教学工作；主持国家级科研项目2个，副负责1个，国家专利2项，研究方向机器学习、数据挖掘、计算几何，应用于股票交易与预测、医药图像识别、智能畜牧等方向。擅长机器学习模型选择、核心算法分析和代码实现。

开课时间：2017年11月24日

学习方式：

在线直播，共24次

每周3次（周一、三、五晚上20:00-22:00）

直播后提供录制回放视频，在线反复观看，有效期1年

升级版Ⅶ的内容特色：

1.每个算法模块按照“原理讲解→分析数据→自己动手实现→特征与调参”的顺序，“原理加实践，顶天立地”。

2.拒绝简单的“调包”——增加3次“机器学习的角度看数学”和3次“Python数据清洗和特征提取”，提升学习深度、降低学习坡度。

3.增加网络爬虫的原理和编写，从获取数据开始，重视将实践问题转换成实际模型的能力，分享工作中的实际案例或Kaggle案例：广告销量分析、环境数据异常检测和分析、数字图像手写体识别、Titanic乘客存活率预测、用户-电影推荐、真实新闻组数据主题分析、中文分词、股票数据特征分析等。

4.强化矩阵运算、概率论、数理统计的知识运用，掌握机器学习根本。

5.阐述机器学习原理，提供配套源码和数据；确保“懂推导，会实现”。

6.删去过于晦涩的公式推导，代之以直观解释，增强感性理解。

7.对比不同的特征选择带来的预测效果差异。

8.重视项目实践(如工业实践、Kaggle等)，重视落地。思考不同算法之间的区别和联系，提高在实际工作中选择算法的能力。

9.涉及和讲解的部分Python库有：Numpy、Scipy、matplotlib、Pandas、scikit-learn、XGBoost、libSVM、LDA、Gensim、NLTK、HMMLearn，涉及的其他“小”库在课程的实践环节会逐一讲解。

课程大纲

第一课：机器学习的数学基础1 - 数学分析

1. 机器学习的一般方法和横向比较

2. 数学是有用的：以SVD为例

3. 机器学习的角度看数学

4. 复习数学分析

5. 直观解释常数e

6. 导数/梯度

7. 随机梯度下降

8. Taylor展式的落地应用

9. gini系数

10. 凸函数

11. Jensen不等式

12. 组合数与信息熵的关系

第二课：机器学习的数学基础2 - 概率论与贝叶斯先验

1. 概率论基础

2. 古典概型

3. 贝叶斯公式

4. 先验分布/后验分布/共轭分布

5. 常见概率分布

6. 泊松分布和指数分布的物理意义

7. 协方差(矩阵)和相关系数

8. 独立和不相关

9. 大数定律和中心极限定理的实践意义

10. 深刻理解最大似然估计MLE和最大后验估计MAP

11. 过拟合的数学原理与解决方案

第三课：机器学习的数学基础3 - 矩阵和线性代数

1. 线性代数在数学科学中的地位

2. 马尔科夫模型

3. 矩阵乘法的直观表达

4. 状态转移矩阵

5. 矩阵和向量组

6. 特征向量的思考和实践计算

7. QR分解

8. 对称阵、正交阵、正定阵

9. 数据白化及其应用

10. 向量对向量求导

11. 标量对向量求导

12. 标量对矩阵求导

第四课：Python基础1 - Python及其数学库

1. 解释器Python2.7与IDE：Anaconda/Pycharm

2. Python基础：列表/元组/字典/类/文件

3. Taylor展式的代码实现

4. numpy/scipy/matplotlib/panda的介绍和典型使用

5. 多元高斯分布

6. 泊松分布、幂律分布

7. 典型图像处理

8. 蝴蝶效应

9. 分形与可视化

第五课：Python基础2 - 机器学习库

1. scikit-learn的介绍和典型使用

2. 损失函数的绘制

3. 多种数学曲线

4. 多项式拟合

5. 快速傅里叶变换FFT

6. 奇异值分解SVD

7. Soble/Prewitt/Laplacian算子与卷积网络

8. 卷积与(指数)移动平均线

9. 股票数据分析

第六课：Python基础3 - 数据清洗和特征选择

1. 实际生产问题中算法和特征的关系

2. 股票数据的特征提取和应用

3. 一致性检验

4. 缺失数据的处理

5. 环境数据异常检测和分析

6. 模糊数据查询和数据校正方法、算法、应用

7. 朴素贝叶斯用于鸢尾花数据

8. GaussianNB/MultinomialNB/BernoulliNB

9. 朴素贝叶斯用于18000+篇/Sogou新闻文本的分类

第七课：回归

1. 线性回归

2. Logistic/Softmax回归

3. 广义线性回归

4. L1/L2正则化

5. Ridge与LASSO

6. Elastic Net

7. 梯度下降算法：BGD与SGD

8. 特征选择与过拟合

第八课：Logistic回归

1. Sigmoid函数的直观解释

2. Softmax回归的概念源头

3. Logistic/Softmax回归

4. 最大熵模型

5. K-L散度

6. 损失函数

7. Softmax回归的实现与调参

第九课：回归实践

1. 机器学习sklearn库介绍

2. 线性回归代码实现和调参

3. Softmax回归代码实现和调参

4. Ridge回归/LASSO/Elastic Net

5. Logistic/Softmax回归

6. 广告投入与销售额回归分析

7. 鸢尾花数据集的分类

8. 交叉验证

9. 数据可视化

第十课：决策树和随机森林

1. 熵、联合熵、条件熵、KL散度、互信息

2. 最大似然估计与最大熵模型

3. ID3、C4.5、CART详解

4. 决策树的正则化

5. 预剪枝和后剪枝

6. Bagging

7. 随机森林

8. 不平衡数据集的处理

9. 利用随机森林做特征选择

10. 使用随机森林计算样本相似度

11. 数据异常值检测

第十一课：随机森林实践

1. 随机森林与特征选择

2. 决策树应用于回归

3. 多标记的决策树回归

4. 决策树和随机森林的可视化

5. 葡萄酒数据集的决策树/随机森林分类

6. 波士顿房价预测

第十二课：提升

1. 提升为什么有效

2. 梯度提升决策树GBDT

3. XGBoost算法详解

4. Adaboost算法

5. 加法模型与指数损失

第十三课：提升实践

1. Adaboost用于蘑菇数据分类

2. Adaboost与随机森林的比较

3. XGBoost库介绍

4. Taylor展式与学习算法

5. KAGGLE简介

6. 泰坦尼克乘客存活率估计

第十四课：SVM

1. 线性可分支持向量机

2. 软间隔的改进

3. 损失函数的理解

4. 核函数的原理和选择

5. SMO算法

6. 支持向量回归SVR

第十五课：SVM实践

1. libSVM代码库介绍

2. 原始数据和特征提取

3. 葡萄酒数据分类

4. 数字图像的手写体识别

5. SVR用于时间序列曲线预测

6. SVM、Logistic回归、随机森林三者的横向比较

第十六课：聚类（上）

1. 各种相似度度量及其相互关系

2. Jaccard相似度和准确率、召回率

3. Pearson相关系数与余弦相似度

4. K-means与K-Medoids及变种

5. AP算法(Sci07)/LPA算法及其应用

第十七课：聚类（下）

1. 密度聚类DBSCAN/DensityPeak(Sci14)

2. DensityPeak(Sci14)

3. 谱聚类SC

4. 聚类评价AMI/ARI/Silhouette

5. LPA算法及其应用

第十八课：聚类实践

1. K-Means++算法原理和实现

2. 向量量化VQ及图像近似

3. 并查集的实践应用

4. 密度聚类的代码实现

5. 谱聚类用于图片分割

第十九课：EM算法

1. 最大似然估计

2. Jensen不等式

3. 朴素理解EM算法

4. 精确推导EM算法

5. EM算法的深入理解

6. 混合高斯分布

7. 主题模型pLSA

第二十课：EM算法实践

1. 多元高斯分布的EM实现

2. 分类结果的数据可视化

3. EM与聚类的比较

4. Dirichlet过程EM

5. 三维及等高线等图件的绘制

6. 主题模型pLSA与EM算法

第二十一课：主题模型LDA

1. 贝叶斯学派的模型认识

2. Beta分布与二项分布

3. 共轭先验分布

4. Dirichlet分布

5. Laplace平滑

6. Gibbs采样详解

第二十二课：LDA实践

1. 网络爬虫的原理和代码实现

2. 停止词和高频词

3. 动手自己实现LDA

4. LDA开源包的使用和过程分析

5. Metropolis-Hastings算法

6. MCMC

7. LDA与word2vec的比较

8. TextRank算法与实践

第二十三课：隐马尔科夫模型HMM

1. 概率计算问题

2. 前向/后向算法

3. HMM的参数学习

4. Baum-Welch算法详解

5. Viterbi算法详解

6. 隐马尔科夫模型的应用优劣比较

第二十四课：HMM实践

1. 动手自己实现HMM用于中文分词

2. 多个语言分词开源包的使用和过程分析

3. 文件数据格式UFT-8、Unicode

4. 停止词和标点符号对分词的影响

5. 前向后向算法计算概率溢出的解决方案

6. 发现新词和分词效果分析

7. 高斯混合模型HMM

8. GMM-HMM用于股票数据特征提取

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。