会员服务 ·

【机器学习】从零开始入门机器学习算法实践

2017 年 12 月 1 日 产业智能官 雷锋网

人工智能热潮下，“大数据”、“机器学习”、“深度学习”热词屡见不鲜，但是想要真正掌握核心技术，势必要对机器学习算法有全面理解，这也是深入机器学习的必经之路。

为了让大家深入理解机器学习原理，11月22号，AI研习社邀请了日本名古屋大学陈安宁博士为大家奉上《从零开始入门机器学习算法实践》公开课，帮助大家对模型选择以及对数据分析有更全面理解，以提高在实际工作中选择算法的能力。

今天小编就带大家一起来回顾本节课程中陈博士分享的精彩内容。

浅谈机器学习

首先跟大家谈一下最近非常火热的几个名词：人工智能、机器学习、深度学习、神经网络，下图大致能反映出他们之间的关系：

人工智能可以说是一个超复杂学科的集合，不仅包括了计算学科方面的知识，还包括了生物学科，社会学科等方面的内容，而机器学习只是它其中的一个分支，深度学习又是机器学习中的一个学习方向，最后，神经网络是深度学习里面目前应用的最广泛的一个学习方法。

其实对于机器学习的定义，可以说是仁者见仁智者见智，每个人在自己的领域可能都有不同的理解，我在这里给它的定义是：机器学习就是找出一种计算机算法，可以让计算机自己去处理新的问题。可能这个定义让大家觉得比较抽象，后面通过具体的算法介绍，会让大家更加容易理解。

那么，典型的机器学习过程是怎么样的呢？

其实就是包括三个部分，一是我们的输入过程，然后是模型，模型是过程中最重要的，也是我们一直在寻找和探究的，最后，就是输出的结果，这个结果可以有很多种，比如我们想预测的东西，想分类的事物等。

机器学习分类和应用

关于机器学习的分类，主要分为以下四种：监督学习，非监督学习，以及介于监督学习和非监督学习之间的半监督学习，另外还有强化学习。

监督学习：监督式学习的常用应用场景如分类问题（逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯）和回归问题（线性回归、KNN、Gradient Boosting&AdaBoost等等）

通俗点讲，就是监督学习的数据集内容是打了标签的，即已经给出了数据集结果的，通常我们在这种数据集上进行的模型探索就是监督学习。

可以看到，KNN既适用于分类问题，也适用于回归问题，也就是刚刚所说的，每种具体的算法适用的问题不是固定的，随着我们在各种模型的使用和问题的处理都有了一定的经验以后，我们才会采用更加合理的模型去应用和处理问题。

像上面这么多的模型，我本人最常用的是随机森林和支持向量机这两个模型，因为无论在什么情况下，这两个模型的效果都是非常好的。

非监督学习：常见的应用场景如聚类等。常见算法包括EM算法以及K-Means算法

相对监督学习来说，这是一个没有标签的数据集，我们只知道这里有一个数据集，但不知道这个数据集里的每个元素是什么，然后你要在这种情况下进行模型探索。

半监督学习：介于监督学习和非监督学习之间，即数据集一部分是有标签的，一部分是没有标签的，它的探索方法基本就是从监督学习中改编和演变，以此来适应半监督学习的内容。

强化学习：更强调与环境的互动，常见于动态场景或者机器人应用中，常见算法包括Q-Learning以及时间差学习（Temporal difference learning）

我们的《机器学习算法与实战入门基础》课程主要涉及到的还是监督学习和非监督学习两个部分的内容，而基本上学完这两个类别的算法，你也算是掌握了绝大部分的机器学习算法的基础铺垫了。

而在应用方面，目前机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、语音识别、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、战略游戏和机器人等领域。

其中，计算机视觉、自然语言处理以及语音识别这三个方向可以说是目前最多人学习的一个方向，而在一直不被大家看好的证券市场分析方面，机器学习已经做的还不错了，我自己本身之前也是做数据挖掘和计算机图像处理，在课程里面，也会涉及这部分的分享内容。

两个基本概念

梯度（Gradient）

定义：即导数（Derivative），一个函数在某一点的导数描述了这个函数在这一点附近的变化率。

过拟合（overfit）：Perfect sometimes is not good

过拟合主要就是说明并不是我们的模型用的越复杂就越好，这也是很多初学者易犯的错误，总认为参数给的越多，模型给的越复杂，效果会越好。在这里介绍这个概念也是为了给之后的入门课程做一个铺垫。

我们看上面三个数据集，中间的就是拟合的比较好的数据集，左边是欠拟合的数据集，而右边即是过拟合的数据集，我们在这里主要就是介绍右边这种。从图上看，可以看到样本曲线用的很复杂，拟合的非常好，细节处理的非常细致，但是泛化性很差，在整体的性能上会出现误差。

包括以后我们在课程的项目实训中都会提到这个问题，这个一方面是要看各种改善方法，另一方面就是要考不断的经验积累了。

算法

接下来就给大家讲一下算法方面的内容，也是我们的《机器学习算法与实战入门基础》中会讲到的最主要的内容。

期望最大算法（EM算法）

期望最大算法（EM算法）：Expectation-Maximization 算法是统计学中用来给带隐含变量的模型做最大似然（和最大后验概率）的一种方法。EM 的应用特别广泛，经典的比如做概率密度估计用的高斯混合模型(Gaussian Mixture Model)。

明白一个概念，机器学习所有的算法只有一个目标，那就是找出目标函数的最大(小)值，所以EM算法肯定不是凭空出现的，它也是为了找出某个问题的最大(小)值

介绍这个算法之前，先给大家引出一个问题：

假设有三枚硬币A、B、C，每个硬币正面出现的概率是π、p、qπ、p、q。进行如下的掷硬币实验：先掷硬币A，正面向上选B，反面选C；然后掷选择的硬币，正面记1，反面记0。独立的进行10次实验，结果如下：1，1，0，1，0，0，1，0，1，1。假设只能观察最终的结果(0 or 1)，而不能观测掷硬币的过程(不知道选的是B or C)，问如何估计三硬币的正面出现的概率？(摘自李航老师《统计方法)

首先这个抛硬币问题其实是个二项分布问题，即伯努利分布。解答方法如下：

第一步，我们计算一个单独观察结果y的概率，就是最简单的二项分布，y的值只可能是0和1。

第二步，计算整个观测数据的概率，这个例子中我们总共有10个观测结果，所以n=10。

其实很简单，每个观测结果都是独立的，所以最终10个观测结果的概率就等于每个观测结果的概率相乘。

第三步求参数模型的极大似然估计（极大似然估计的概念大家可以自行百度下）

所以我们的目标函数就有了：

（简单介绍一下这种书写方式。arg是argument是缩写，即自变数，参数的意思，max表示我们的目标是为了让后面的参数最大化。

所以这个式子的意思就是，求出能够让log函数最大的theta值。）

所以最终的目标函数变成：

提问：求y=x*x最小值时的x，写出上面形式的表达。

我们知道求最大最小值，最常用的办法就是求导，这个方法思路是以后机器学习算法的主要内容。

但是本问题的目标函数，不适用这个方法，因为目标函数过于复杂。那么，核心问题来了，怎么求呢？

为了让大家更直观地理解，小编直接在这里给大家奉上本次公开课的精彩视频：

非技术人员的机器学习指南：如何轻松地进入机器学习

AiTechYun

世界末日

首先，我们听说机器人正在做蓝领工作。

然后，我们发现白领工作也不安全。

在我们恐慌我们将要失业，我们发现这些机器人正在背后议论我们。

可能是关于我们这些懒惰的失业人员的流言蜚语。

机器学习在许多不同的环境中都被讨论过，很难理解它到底是什么。你查一下，会得到很抽象的理论解释：高功率的拼字游戏，数学和代码墙。

你只是想知道什么是机器学习，为什么它很重要，以及它是如何工作的。老实说，你只是想弄明白所有的流行语，就像在中学的教室里骂脏话:每个人都在用它们，但你有一种感觉，没有人知道他们到底是什么意思。

让我们一探究竟

所以,机器学习，是…人工智能吗?

这是一个很好的开始。我们都知道人工智能的含义。我的意思是，我们都在思考不同的事情，但这确实是一种想法。

人工智能（AI）是建立可以做出“智能”决策的系统的研究。

基本上，如果电脑做了一些看起来很聪明的事情，我们就把它标记为人工智能。

我们来举个例子吧。电脑游戏经常会出现一些看起来很聪明的敌人。他们跟随我们，他们的行为方式使游戏更具挑战性。这是人工智能的一个例子。

游戏开发者通过给人工智能制定一套规则来实现这个目标。以玩家为例，如果玩家正在射击，那就找掩护。如果玩家停止射击，试着向玩家射击。游戏规则越多，游戏看起来就越智能。

问题是，电脑游戏通常是相当有限的。玩家只能执行一些特定的动作，而这个级别完全由开发人员设计。因此，开发人员可以为那些看起来非常聪明的人工智能角色制定规则。

不是所有的问题都可以用规则来解决

假设我们想要一台电脑来检测这是不是狗的照片。

试着想想我们需要什么样的规则。

狗有四条腿吗?

狗是白色的吗?

狗有毛吗?

计算机视觉问题，就像识别物体一样，是非常复杂的。但我们的大脑几乎凭直觉就能解决它们。所以，我们很难提出明确的规则。

进入机器学习

我们并没有建立一个识别狗的系统。我们建立了一个可以学会识别狗的系统。

我们给它提供了成千上万的图像，有些是狗，有些不是。系统学习了定义狗的图像的规则。

机器学习是建立可以学习做出明智的决定的研究。

关键字“学习”是机器学习与其他类型人工智能的区别所在。

你说机器可以学习规则。很明显，规则确实存在。我们只是尽全力去找到他们。

这绝对是正确的。如果我们努力尝试，我们可能会开发出一种基于规则的狗狗探测系统。它将有成千上万条规则，涵盖每一个可能的场景，这将是一件非常好的事。

如果我们现在想让系统检测包含食物的图像呢?好吧，我们扔掉所有的东西，从头开始。这些规则都不适用。

能学会识别目标的系统可以通过使用食物图片来识别食物，而不是狗。

这就是机器学习的力量。没有固定的规则，我们可以灵活的学习和适应。

保持真实

现在，听起来完全像我们建立了一个生动的学习系统，并且教它识别狗。然后我们教它可爱与爱的含义，然后希望它不要反抗并杀死我们。

现实情况不是这样的，相比起来要简单得多。我们希望机器学会基于预测做决定。让我们从这个问题开始:人类是如何预测的?

这里有一个我们如何预测的例子。你甚至可能在中学的科学课上做过类似的事情。

假设你做了一个实验。你收集数据，并在图表上画出来。

x轴是你改变的值，y轴是你测量的结果。然后在图上画一条趋势线(或最佳拟合线)。

这是最好的数据模型。

现在你有了这条线，你就可以做出预测了。你可以选择一个你从未测量过的权值，在x轴上找出它的位置，然后读出y轴来预测弹簧的长度。

你使用数据建立了一个模型，并用它来做出预测。

如果你编写了一个可以执行这些步骤的程序，那么恭喜你:这就是机器学习。

找到线性模型并利用它进行预测:这完全是一种机器学习技术，称为线性回归。

我们本可以把模型编进系统。这个系统可以预测该弹簧的情况。但如果没有我们编写新的代码，它就不能预测其他的弹簧。

相反，如果我们教这个程序来执行线性回归并学习模型，那就是机器学习。

我们不提供模型。我们让机器学习模型。

魔法

有一件东西是你需要从这个例子中学到的，那就是:

机器学习不是魔法。

我们并不是在建立一个可以学习一切的自我意识。弹簧模型程序永远不会学会识别狗。

我们建立了一个可以学习特殊类型的模型系统。我们所遗漏的只是模型。

几乎每一个机器学习系统都做了以下版本:

系统根据模型给出一个输出。它对输出进行评估，以确定它有多糟糕。然后更新模型，以改善接下来的输出。

机器学习是构建系统的艺术，它可以为特定的问题执行这个循环。

根据问题的不同，输出可能有很大的不同。它可能是聊天机器人的文本回应。或者是决定是否在自动驾驶汽车上踩刹车。

在我们的弹簧问题中，实际的模型可能是线性的。它可能是一个基于统计和概率的更复杂的模型。或者，它可以是一个神经网络，旨在模仿人类大脑的工作方式:

链接地址为：https://hackernoon.com/neural-networks-the-1-minute-guide-a2909507f350

不管细节是什么，几乎每一个机器学习系统都在运行这个循环。在每一个周期中，系统都会提高一点点。在经历了数千次甚至上百万次的循环之后，我们可以获得比任何人类都更好的系统。

各种各样的应用程序，以及解决它们所需的技术，是机器学习与其他许多领域的交叉的原因。这也是为什么机器学习是如此令人感兴趣的原因。

构建机器学习系统可能很复杂，但理解机器学习并不一定是必要的。

所以，去征服它吧。你只需要再做几年，真的。到那时，我相信会有机器人来为你做这些。

本文为编译文章，转载请注明出处。

来源：atyun_com

来源网址：http://www.atyun.com/12367_非技术人员的机器学习指南：如何轻松地进入机器.html

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。