【机器学习】机器学习:开启智能创新之门

2017 年 10 月 25 日 产业智能官 e-works

作者:e-works 吴丽萍    “产业智能官”推荐阅读。


人工智能大师西蒙曾说过:“学习就是系统在不断重复的工作中对本身能力的增强或者改进,使得系统在下一次执行同样任务或类似任务时,会比现在做得更好或效率更高。”

    一、机器学习的发展背景:人工智能

 

   人工智能(Artificial Intelligence,缩写为AI)是对人的意识、思维过程进行模拟的一门新学科。如今,人工智能从虚无缥缈的科学幻想变成了现实。计算机科学家们在人工智能的技术核心--机器学习(Machine Learning)和深度学习(Deep Learning)领域上已经取得重大的突破,机器被赋予强大的认知和预测能力。回顾历史,在1997年,IBM“深蓝”战胜国际象棋冠军卡斯帕罗夫;在2011年,具备机器学习能力的IBM Waston参加综艺节目赢得100万美金;在2016年,利用深度学习训练的Aplphago成功击败人类世界冠军。种种事件表明机器也可以像人类一样思考,甚至比人类做得更好。

 

    目前,人工智能在金融、医疗、制造等行业得到了广泛应用,全球投资从2012年的5.89亿美元猛增至2016年50多亿美元。麦肯锡预计,到2025年人工智能应用市场的总值将达到1270亿美元。与此同时,麦肯锡通过对2016年人工智能市场的投资进行深入分析,发现有将近60%的资金并购围绕机器学习来布局。其中,基于软件的机器学习初创公司比基于机器的机器人公司更受投资欢迎。从2013 年到2016 年,这一领域的投资复合年均增长率达到约80%。由此可见,机器学习已经成为目前人工智能技术发展的主要方向。

 

    二、机器学习与人工智能、深度学习的关系

 

    在介绍机器学习之前,先需要对人工智能、机器学习和深度学习三者之间的关系进行梳理。目前业界最常见的划分是:

 

    人工智能是使用与传统计算机系统完全不同的工作模式,它可以依据通用的学习策略,读取海量的“大数据”,并从中发现规律、联系和洞见,因此人工智能能够根据新数据自动调整,而无需重设程序。

 

    机器学习是人工智能研究的核心技术,在大数据的支撑下,通过各种算法让机器对数据进行深层次的统计分析以进行“自学”;利用机器学习,人工智能系统获得了归纳推理和决策能力;而深度学习更将这一能力推向了更高的层次。

 

    深度学习则是机器学习算法的一种,隶属于人工神经网络体系,现在很多应用领域中性能最佳的机器学习都是基于模仿人类大脑结构的神经网络设计而来的,这些计算机系统能够完全自主地学习、发现并应用规则。相比较其他方法,在解决更复杂的问题上表现更优异,深度学习是可以帮助机器实现“独立思考”的一种方式。

 

    总而言之,人工智能是社会发展的重要推动力,而机器学习,尤其是深度学习技术就是人工智能发展的核心,它们三者之间是包含与被包含的关系。如图1所示。

 

    图1 人工智能、机器学习、深度学习之间的关系

三、机器学习:实现人工智能的高效方法


 

    从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。国外有些学者对机器学习进行了定义大同小异,有学者认为,机器学习是对能通过经验自动改进的计算机算法的研究;也有学者认为,机器学习是指利用数据或以往的经验,以此优化计算机程序的性能标准。由此可知,机器学习是通过经验或数据来改进算法的研究,通过算法让机器从大量历史数据中学习规律,得到某种模式并利用此模型预测未来,机器在学习的过程中,处理的数据越多,预测结果就越精准。

 

    机器学习在人工智能的研究中具有十分重要的地位。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。从20世纪50年代人们就开始了对机器学习的研究,从最初的基于神经元模型以及函数逼近论的方法研究,到以符号演算为基础的规则学习和决策树学习的产生,以及之后的认知心理学中归纳、解释、类比等概念的引入,至最新的计算学习理论和统计学习的兴起,机器学习一直都在相关学科的实践应用中起着主导作用。现在已取得了不少成就,并分化出许多研究方向,主要有符号学习、连接学习和统计学习等。

 

    (一)机器学习的发展历程

 

    机器学习发展过程大体可分为以下四个阶段:      

 

    1.50年代中叶到60年代中叶

 

    在这个时期,所研究的是“没有知识”的学习,即“无知”学习;其研究目标是各类自组织系统和自适应系统;其主要研究方法是不断修改系统的控制参数以改进系统的执行能力,不涉及与具体任务有关的知识。指导本阶段研究的理论基础是早在40年代就开始研究的神经网络模型。随着电子计算机的产生和发展,机器学习的实现才成为可能。这个阶段的研究导致了模式识别这门新科学的诞生,同时形成了机器学习的二种重要方法,即判别函数法和进化学习。塞缪尔的下棋程序就是使用判别函数法的典型例子。不过,这种脱离知识的感知型学习系统具有很大的局限性。无论是神经模型、进化学习或是判别函数法,所取得的学习结果都很有限,远不能满足人们对机器学习系统的期望。在这个时期,我国研制了数字识别学习机。         

 

    2.60年代中叶至70年代中叶

 

    本阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。机器能够采用符号来描述概念(符号概念获取),并提出关于学习概念的各种假设。本阶段的代表性工作有温斯顿(Winston)的结构学习系统和海斯·罗思(Hayes Roth)等的基于逻辑的归纳学习系统。虽然这类学习系统取得较大的成功,但只能学习单一概念,而且未能投入实际应用。此外,神经网络学习机因理论缺陷未能达到预期效果而转入低潮。因此,使那些对机器学习的进展抱过大希望的人们感到失望。他们称这个时期为“黑暗时期”。

 

    3.70年代中叶至80年代中叶

 

    在这个时期,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和各种学习方法。机器的学习过程一般都建立在大规模的知识库上,实现知识强化学习。尤其令人鼓舞的是,本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功,促进机器学习的发展。在出现第一个专家学习系统之后,示例归约学习系统成为研究主流,自动知识获取成为机器学习的应用研究目标。1980年,在美国的卡内基梅隆大学(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。此后,机器归纳学习进入应用。1986年,国际杂志《机器学习》(Machine Learning)创刊,迎来了机器学习蓬勃发展的新时期。70年代末,中国科学院自动化研究所进行质谱分析和模式文法推断研究,表明我国的机器学习研究得到恢复。1980年西蒙来华传播机器学习的火种后,我国的机器学习研究出现了新局面。

 

    4.机器学习最新阶段始于1986年

 

    一方面,由于神经网络研究的重新兴起,对连接机制学习方法的研究方兴未艾,机器学习的研究已经在全世界范围内出现新的高潮,机器学习的基本理论和综合系统的研究得到加强和发展。另一方面,对实验研究和应用研究得到前所未有的重视,机器学习有了更强的研究手段和环境。从而出现了符号学习、神经网络学习、进化学习和基于行为主义(actionism)的强化学习等百家争鸣的局面。

 

    图2  机器学习的发展历程


    (二)机器学习的结构模型

 

    机器学习的本质就是算法。算法是用于解决问题的一系列指令。程序员开发的用于指导计算机进行新任务的算法是我们今天看到的先进数字世界的基础。计算机算法根据某些指令和规则,将大量数据组织到信息和服务中。机器学习向计算机发出指令,允许计算机从数据中学习,而不需要程序员做出新的分步指令。

 

    机器学习的基本过程是给学习算法提供训练数据。然后,学习算法基于数据的推论生成一组新的规则。这本质上就是生成一种新的算法,称之为机器学习模型。通过使用不同的训练数据,相同的学习算法可以生成不同的模型。从数据中推理出新的指令是机器学习的核心优势。它还突出了数据的关键作用:用于训练算法的可用数据越多,算法学习到的就越多。事实上,AI 的许多最新进展并不是由于学习算法的激进创新,而是现在积累了大量的可用数据。

 

    图3  机器学习的结构模型

 

    (三)机器学习的工作方式

 

    1.选择数据:首先将原始数据分成三组:训练数据、验证数据和测试数据;

 

    2.数据建模:再使用训练数据来构建使用相关特征的模型;

 

    3.验证模型:使用验证数据输入到已经构建的数据模型中;

 

    4.测试模型:使用测试数据检查被验证的模型的性能表现;

 

    5.使用模型:使用完全训练好的模型在新数据上做预测;

 

    6.调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现。

 

    图4 机器学习的工作方式

 

    (四)机器学习发展的关键基石:

 

    (1)海量数据:人工智能的能量来源是稳定的数据流。机器学习可以通过海量数据来“训练” 自己,才能开发新规则来完成日益复杂的任务。目前全球有超过30亿人在线,约170 亿个连接的设备或传感器,产生了大量数据,而数据存储成本的降低,使得这些数据易于被使用。

 

    (2)超强计算:强大的计算机和通过互联网连接远程处理能力使可以处理海量数据的机器学习技术成为可能,具某媒体称,ALPHGO之所以能在与对李世石的对决中取得历史性的胜利,这与它硬件配置的1920个CPU和280个GPU超强运算系统密不可分,可见计算能力对于机器学习是至关重要的。

 

    (3)优秀算法:在机器学习中,学习算法(learning algorithms)创建了规则,允许计算机从数据中学习,从而推论出新的指令(算法模型),这也是机器学习的核心优势。新的机器学习技术,特别是分层神经网络,也被称为“深度学习”,启发了新的服务,刺激了对人工智能这一领域其他方面的投资和研究。

 

 

    图5  机器学习的关键基石


(五)机器学习的算法分类


 

    机器学习基于学习形式的不同通常可分为三类:

 

    1.监督学习(Supervised Learning)
    给学习算法提供标记的数据和所需的输出,对于每一个输入,学习者都被提供了一个回应的目标。监督学习主要被应用于快速高效地教熟AI现有的知识,被用于解决分类和回归的问题。常见的算法有:

 

    (1)决策树(Decision Trees):决策树可看作一个树状预测模型,它通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树是一个决策支持工具,它用树形的图或者模型表示决策及其可能的后果,包括随机事件的影响、资源消耗、以及用途。用于分析判断有无贷款意向的决策树示如图 所示,从商业角度看,常用于基于规则的信用评估、赛马结果预测等。

 

    

    图6 决策树

 

   (2)Adaboost算法:这是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。算法本身是改变数据分布实现的,它根据每次训练集之中的每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最后的决策分类器。AdaBoost算法主要解决了:两类问题、多类单标签问题、多类多标签问题、大类单标签问题和回归问题; 优点:学习精度明显增加,并且不会出现过拟合问题,AdaBoost算法技术常用于人脸识别和目标跟踪领域。

 

 

    图7 Adaboost

    (3)人工神经网络(Artificial Neural Network -ANN)算法:人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络是并行分布式系统,采用了与传统人工智能和信息处理技术完全不同的机理,克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点。

 

 

 

    图8 人工神经网络

 

    (4)SVM(Support Vector Machine):SVM 法即支持向量机算法,由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。 SVM是一种二分算法。假设在N维空间,有一组点,包含两种类型,SVM生成a(N-1) 维的超平面,把这些点分成两组。比如你有一些点在纸上面,这些点是线性分离的。SVM会找到一个直线,把这些点分成两类,并且会尽可能远离这些点。从规模看来,SVM(包括适当调整过的)解决的一些特大的问题有:广告、人类基因剪接位点识别、基于图片的性别检测、大规模图片分类,适用于新闻分类、手写识别等应用。

 

 

    图9 支持向量机算法

 

    (5)朴素贝叶斯(Naive Bayesian):贝叶斯法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。朴素贝叶斯分类器基于把贝叶斯定理运用在特征之间关系的强独立性假设上。优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。现实生活中的应用例子:电子邮件垃圾副过滤、判定文章属性分类、分析文字表达的内容含义和人脸识别、情感分析、消费者分类。

 

    图10  朴素贝叶斯算法

 

    (6)K-近邻(k-Nearest Neighbors,KNN):这是一种分类算法,其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。

 

 

    图11  K-近邻算法

 

    (7)逻辑回归(Logistic Regression):这是一种分类算法,主要用于二分类问题。逻辑回归是一种非常强大的统计方法,可以把有一个或者多个解释变量的数据,建立为二项式类型的模型,通过用累积逻辑分布的逻辑函数估计概率,测量分类因变量和一个或多个独立变量之间的关系。逻辑回归是一种非线性回归模型,相比于线性回归,它多了一个sigmoid函数(或称为Logistic函数)。通常,回归在现实生活中的用途如下:信用评估、测量市场营销的成功度、预测某个产品的收益、特定的某天是否会发生地震,路面交通流量分析、邮件过滤。

 

 

    图12  逻辑回归算法

 

    (8)随机森林算法(Random Forest):随机森林算法可以用于处理回归、分类、聚类以及生存分析等问题,当用于分类或回归问题时,它的主要思想是通过自助法重采样,生成很多个树回归器或分类器。在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定,常用于用户流失分析、风险评估。

 

 

    图13  随机森林算法

 

    (9)线形回归( Linear Regression):这是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。

 

    图14  线形回归算法

 

2.无监督学习(Unsupervised Learning)
       给学习算法提供的数据是未标记的,并且要求算法识别输入数据中的模式,主要是建立一个模型,用其试着对输入的数据进行解释,并用于下次输入。现实情况下往往很多数据集都有大量的未标记样本,有标记的样本反而比较少。如果直接弃用,很大程度上会导致模型精度低。这种情况解决的思路往往是结合有标记的样本,通过估计的方法把未标记样本变为伪的有标记样本,所以无监督学习比监督学习更难掌握。主要用于解决聚类和降维问题,常见的算法有:


    (1)聚类算法:把一组对象分组化的任务,使得在同一组的对象比起其它组的对象,它们彼此更加相似。常用的聚类算法包括:

    ①K-means算法:这是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。其优点是算法足够快速、简单,并且如果预处理数据和特征工程十分有效,那么该聚类算法将拥有极高的灵活性。缺点是该算法需要指定集群的数量,而K值的选择通常都不是那么容易确定的。另外,如果训练数据中的真实集群并不是类球状的,那么K均值聚类会得出一些比较差的集群。

    图15  K-means算法

 

    ②Expectation Maximisation (EM):这是一种迭代算法,用于含有隐变量(latent variable)的概率参数模型的最大似然估计或极大后验概率估计。EM算法的主要目的是提供一个简单的迭代算法计算后验密度函数,它的最大优点是简单和稳定,但容易陷入局部最优。

    图16  EM算法

 

    ③Affinity Propagation 聚类:AP 聚类算法是一种相对较新的聚类算法,该聚类算法基于两个样本点之间的图形距离(graph distances)确定集群。采用该聚类方法的集群拥有更小和不相等的大小。优点:该算法不需要指出明确的集群数量。缺点:AP 聚类算法主要的缺点就是训练速度比较慢,并需要大量内存,因此也就很难扩展到大数据集中。另外,该算法同样假定潜在的集群是类球状的。

 

    ④层次聚类(Hierarchical Clustering):层次聚类是一系列基于以下概念的聚类算法:是通过对数据集按照某种方法进行层次分解,直到满足某种条件为止。按照分类原理的不同,可以分为凝聚和分裂两种方法。优点:层次聚类最主要的优点是集群不再需要假设为类球形。另外其也可以扩展到大数据集。缺点:有点像 K 均值聚类,该算法需要设定集群的数量。

 

    图17  层次聚类算法

 

    ⑤DBSCAN:这是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。它将样本点的密集区域组成一个集群。优点:DBSCAN 不需要假设集群为球状,并且它的性能是可扩展的。此外,它不需要每个点都被分配到一个集群中,这降低了集群的异常数据。缺点:用户必须要调整「epsilon」和「min_sample」这两个定义了集群密度的超参数。DBSCAN 对这些超参数非常敏感。

    图18 DBSCAN算法

 

    (2)降维算法:其主要特征是将数据从高维降低到低维层次,最大程度的保留了数据的信息。代表算法是:

 

    ①主要代表是主成分分析算法(PCA算法):主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到的结果更加科学有效的数据信息。

 

 

    图19  PCA算法

 

    ②局部线性嵌入(Locally linear embeddingLLE)LLE降维算法:一种非线性降维算法,它能够使降维后的数据较好地保持原有 流形结构 。该算法是针对非线性信号特征矢量维数的优化方法,这种维数优化并不是仅仅在数量上简单的约简,而是在保持原始数据性质不变的情况下,将高维空间的信号映射到低维空间上,即特征值的二次提取。

 

    图20  LLE降维算法

 

    3.强化学习(Reinforcement Learning)
     该算法与动态环境相互作用,把环境的反馈作为输入,通过学习选择能达到其目标的最优动作。强化学习这一方法背后的数学原理与监督/非监督学习略有差异。监督/非监督学习更多地应用了统计学,而强化学习更多地结合了离散数学、随机过程这些数学方法。常见的算法有:

    ①TD(λ)算法:TD(temporal differenee)学习是强化学习技术中最主要的学习技术之一.TD学习是蒙特卡罗思想和动态规划思想的结合,即一方面TD算法在不需要系统模型情况下可以直接从agent经验中学习;另一方面TD算法和动态规划一样,利用估计的值函数进行迭代。

 

    图21  TD(λ)算法

 

    ②Q_learning算法:Q_learning学习是一种模型无关的强化学习算法 ,又称为离策略TD学习(off-policy TD).不同于TD算法,Q_learning迭代时采用状态_动作对的奖赏和Q (s,a)作为估计函数,在Agent每一次学习迭代时都需要考察每一个行为,可确保学习过程收敛。

 

 

    图22   Q_learning算法

 

(六)机器学习过程举例说明


    所谓机器学习过程,是指观察有n个样本数据组成的集合,并根据这些数据来预测未知数据的性质,那么在给定数据集(所谓大数据)和具体问题的前提下,一般解决问题的步骤可以概括如下:

 

    1.数据抽象

 

    将数据集和具体问题抽象成数学语言,以恰当的数学符号表示。这样做自然是为了方便表述和求解问题,而且也更加直观。

 

    2.设定性能度量指标

 

    机器学习是产生模型的算法,一般来说模型都有误差。如果模型学的太好,把训练样本自身的一些特点当成所有潜在样本具有的一般性质,这种情况称为过拟合,这样的模型在面对新样本时就会出现较大误差,专业表述就是导致模型的泛化性能下降。与之相对的是欠拟合,模型对样本的一般性质都没学好,这种情况一般比较好解决,扩充数据集或者调整模型皆可。

 

    3.数据预处理

 

    之所以要做数据预处理,是因为提供的数据集往往很少是可以直接拿来用的。例如:如果样本的属性太多,一般有两种方法: 降维和特征选择。特征选择比较好理解,就是选择有用相关的属性,或者用另外一种表达方式:选择样本中有用、跟问题相关的特征。

 

    4.选定模型

 

    在数据集完美的情况下,接下来就是根据具体问题选定恰当的模型了。一种方式是根据有没有标记样本考虑。如果是有标记样本,可以考虑有监督学习,反之则是无监督学习,兼而有之就看半监督学习是否派的上用场。

 

    5.训练及优化

 

    选定了模型,如何训练和优化也是一个重要问题。如果要评估训练集和验证集的划分效果,常用的有留出法、交叉验证法、自助法、模型调参等如果模型计算时间太长,可以考虑剪枝如果是过拟合,则可通过引入正则化项来抑制(补偿原理)如果单个模型效果不佳,可以集成多个学习器通过一定策略结合,取长补短(集成学习)

 

    6.机器学习举例分析

 

    在机器学习领域特征比模型(学习算法)更重要。举个例子,如果我们的特征选得很好,可能我们用简单的规则就能判断出最终的结果,甚至不需要模型。比如,要判断一个人是男还是女,假设由计算机来完成这个任务,首先采集到各种数据(特征:姓名、身高、头发长度,籍贯、是否吸烟等等。因为根据统计我们知道男人一般比女人高,头发比女人短,并且会吸烟;所以这些特征都有一定的区分度,但是总有反例存在。我们用最好的算法可能准确率也达不到100%。然后再进行特征提取,提出对目标有意义的特征,删除无关的(籍贯),然后进行预处理,对特征提取结果的再加工,目的是增强特征的表示能力,防止模型(分类器)过于复杂和学习困难。接下来就是训练数据,这里我们通过监督学习或无监督的方法来拟合分类器模型。学习器通过分析数据的规律尝试拟合出这些数据和学习目标间的函数,使得定义在训练集上的总体误差尽可能的小,从而利用学得的函数来预测未知数据的学习方法预测出结果,最后对结果进行评价和改进。

    图23 机器学习过程举例说明

 

(七)机器学习覆盖的范围


    从范围上来说,机器学习跟模式识别,统计学习,数据挖掘是类似的,同时,机器学习与其他领域的处理技术的结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。因此,一般说数据挖掘时,可以等同于说机器学习。同时,我们平常所说的机器学习应用,应该是通用的,不仅仅局限在结构化数据,还有图像,音频等应用。

 

    (1)模式识别

 

    模式识别=机器学习。两者的主要区别在于前者是从工业界发展起来的概念,后者则主要源自计算机学科。在著名的《Pattern Recognition And Machine Learning》这本书中,Christopher M. Bishop在开头是这样说的:“模式识别源自工业界,而机器学习来自于计算机学科。不过,它们中的活动可以被视为同一个领域的两个方面,同时在过去的十年间,它们都有了长足的发展”。

 

     (2)数据挖掘

 

    数据挖掘=机器学习+数据库。数据挖掘仅仅是一种方式,不是所有的数据都具有价值,数据挖掘思维方式才是关键,加上对数据深刻的认识,这样才可能从数据中导出模式指引业务的改善。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。

 

    (3)统计学习

 

    统计学习近似等于机器学习。统计学习是个与机器学习高度重叠的学科。因为机器学中的大多数方法来自统计学,甚至可以认为,统计学的发展促进机器学习的繁荣昌盛。例如著名的支持向量机算法,就是源自统计学科。两者的区别在于:统计学习者重点关注的是统计模型的发展与优化,偏数学,而机器学习者更关注的是能够解决问题,偏实践,因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。 

 

    (4)计算机视觉

 

    计算机视觉=图像处理+机器学习。图像处理技术用于将图像处理为适合进入机器学模型中的输入,机器学习则负责从图像中识别出相关的模式。计算机视觉相关的应用非常的多,例如百度识图、手写字符识别、车牌识别等等应用。这个领域将是未来研究的热门方向。随着机器学习的新领域深度学习的发展,大大促进了计算机图像识别的效果,因此未来计算机视觉界的发展前景不可估量。 

 

    (5)语音识别

 

    语音识别=语音处理+机器学习。语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,一般会结合自然语言处理的相关技术。目前的相关应用有苹果的语音助手siri等。 

 

    (6)自然语言处理

 

    自然语言处理=文本处理+机器学习。自然语言处理技术主要是让机器理解人类的语言的一门领域。在自然语言处理技术中,大量使用了编译原理相关的技术,例如词法分析,语法分析等等,除此之外,在理解这个层面,则使用了语义理解,机器学习等技术。作为唯一由人类自身创造的符号,自然语言处理一直是机器学习界不断研究的方向。 

 

    图24   机器学习覆盖的范围

 

 (八)机器学习在工业生产中的主要应用场景 


 

 

    机器学习作为人工智能的最有效的实现方法,已经在工业制造等众多场景中得到了广泛应用,以下是机器学习在工业生产中的五个应用场景。

 

    1.代替肉眼检查作业,实现制造检查智能化和无人化

 

    例如工程岩体的分类,目前主要是通过有经验的工程师通过仔细鉴别来判断,效率比较低,并且因人而异会产生不同的判断偏差。通过采用人工智能,把工程师的经验转化为深度学习算法,判断的准确率和人工判断相当,得到对应的权值后开发出APP,这样工程人员在使用平板拍照后,就可以通过APP自动得到工程岩体分类的结果,高效而且准确率高。

 

    2.大幅改善工业机器人的作业性能,提升制造流程的自动化和无人化

 

    工业上有许多需要分捡的作业,如果采用人工的作业,速度缓慢且成本高,而且还需要提供适宜的工作温度环境。如果采用工业机器人的话,可以大幅减低成本,提高速度。例如图25所示的Bin Picking机器人。

 

    图25 Bin Picking(零件分检)机器人

 

    但是,一般需要分捡的零件并没有被整齐摆放,机器人虽然有摄像机看到零件,但却不知道如何把零件成功的捡起来。在这种情况下,利用机器学习,先让工业机器人随机的进行一次分捡动作,然后告诉它这次动作是成功分捡到零件还是抓空了,经过多次训练之后,机器人就会知道按照怎样的顺序来分捡才有更高的成功率,如图26所示。

 

    图26 利用机器学习进行散堆拾取

 

    如图27所示,经过机器学习后,机器人知道了分捡时夹圆柱的哪个位置会有更高的捡起成功率。

 

    图27 学习次数越多准确性越高

 

    如图28表明通过机器学习后,机器人知道按照怎样的顺序分捡,成功率会更高,图中数字是分捡的先后次序。

 

    图28 机器人确定分拣顺序

    

    如图29所示,经过8个小时的学习后,机器人的分捡成功率可以达到90%,和熟练工人的水平相当。

 

 

    图29 分捡成功率得到大幅提升

 

    3.工业机器人异常的提前检知,从而有效避免机器故障带来的损失和影响

 

    在制造流水线上,有大量的工业机器人。如果其中一个机器人出现了故障,当人感知到这个故障时,可能已经造成大量的不合格品,从而带来不小的损失。如果能在故障发生以前就检知的话,就可以有效得做出预防,减少损失。如图30中的工业机器人减速机,如果给它们配上传感器,并提前提取它们正常/不正常工作时的波形,电流等信息,用于训练机器学习系统,那么训练出来的模型就可以用来提前预警,实际数据表明,机器人会比人更早地预知到故障,从而降低损失。

 

    图30   工业机器人故障预测

 

    如图9所示,经过机器学习后,模型通过观测到的波形,可以检知到人很难感知到的细微变化,并在机器人彻底故障之前的数星期,就提出有效的预警。图31是利用机器学习来提前预警主轴的故障,一般情况下都是主轴出现问题后才被发现。

 

    图31 主轴故障预测

 

    4.PCB电路板的辅助设计

 

    任何一块印制板,都存在与其他结构件配合装配的问题,所以印制板的外形和尺寸必须以产品整机结构为依据,另外还需要考虑到生产工艺,层数方面也需要根据电路性能要求、板型尺寸和线路的密集程度而定。如果不是经验丰富的技术人员,很难设计出合适的多层板。利用机器学习,系统可以将技术人员的经验转化为模型,从而提升PCB设计的效率与成功率,如图32所示。

 

    图32 PCB板辅助设计

 

    5.快速高效地找出符合3D模型的现实零件

 

    例如工业上的3D模型设计完成后,需要根据3D模型中参数,寻找可对应的现实中的零件,用于制造实际的产品。利用机器学习来完成这个任务的话,可以快速,高匹配率地找出符合3D模型参数的那些现实零件。

 

    图33是根据3D模型设计的参数,机器学习模型计算各个现实零件与这些参数的类似度,从而筛选出匹配的现实零件。没有使用机器学习时,筛选的匹配率大概是68%,也就是说,找出的现实零件中有1/3不能满足3D模型设计的参数,而使用机器学习后,匹配率高达96%。

 

    图33 检索匹配的零件

 

 (九)机器学习中的日常生活场景


    1. 市民出行选乘公交预测

 

    基于海量公交数据记录,希望挖掘市民在公共交通中的行为模式。以市民出行公交线路选乘预测为方向,期望通过分析公交线路的历史公交卡交易数据,挖掘固定人群在公共交通中的行为模式,分析推测乘客的出行习惯和偏好,从而建立模型预测人们在未来一周内将会搭乘哪些公交线路,为广大乘客提供信息对称、安全舒适的出行环境,用数据引领未来城市智慧出行。

 

    2. 商品图片分类

 

    电商网站含有数以百万计的商品图片,“拍照购”“找同款”等应用必须对用户提供的商品图片进行分类。同时,提取商品图像特征,可以提供给推荐、广告等系统,提高推荐/广告的效果。希望通过对图像数据进行学习,以达到对图像进行分类划分的目的。

 

    3. 基于文本内容的垃圾短信识别

 

    垃圾短信已日益成为困扰运营商和手机用户的难题,严重影响到人们正常生活、侵害到运营商的社会形象以及危害着社会稳定。而不法分子运用科技手段不断更新垃圾短信形式且传播途径非常广泛,传统的基于策略、关键词等过滤的效果有限,很多垃圾短信“逃脱”过滤,继续到达手机终端。希望基于短信文本内容,结合机器学习算法、大数据分析挖掘来智能地识别垃圾短信及其变种。

 

     4. 国家电网客户用电异常行为分析

 

     随着电力系统升级,智能电力设备的普及,国家电网公司可以实时收集海量的用户用电行为数据、电力设备监测数据,因此,国家电网公司希望通过大数据分析技术,科学的开展防窃电监测分析,以提高反窃电工作效率,降低窃电行为分析的时间及成本。

 

    5.自动驾驶场景中的交通标志检测

 

    在自动驾驶场景中,交通标志的检测和识别对行车周围环境的理解起着至关重要的作用。例如通过检测识别限速标志来控制当前车辆的速度等;另一方面,将交通标志嵌入到高精度地图中,对定位导航也起到关键的辅助作用。希望机遇完全真实场景下的图片数据用于训练和测试,训练能够实际应用在自动驾驶中的识别模型。

 

    6.大数据精准营销中用户画像挖掘

 

    在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。期望基于用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。

 

     7. 监控场景下的行人精细化识别

 

    随着平安中国、平安城市的提出,视频监控被广泛应用于各种领域,这给维护社会治安带来了便捷;但同时也带来了一个问题,即海量的视频监控流使得发生突发事故后,需要耗费大量的人力物力去搜索有效信息。希望基于监控场景下多张带有标注信息的行人图像,在定位(头部、上身、下身、脚、帽子、包)的基础上研究行人精细化识别算法,自动识别出行人图像中行人的属性特征。

 

    8.需求预测与仓储规划方案

 

  拥有海量的买家和卖家交易数据的情况下,利用数据挖掘技术,我们能对未来的商品需求量进行准确地预测,从而帮助商家自动化很多供应链过程中的决策。这些以大数据驱动的供应链能够帮助商家大幅降低运营成本,更精确的需求预测,能够大大地优化运营成本,降低收货时效,提升整个社会的供应链物流效率,朝智能化的供应链平台方向更加迈进一步。高质量的商品需求预测是供应链管理的基础和核心功能。

 

    9.股价走势预测

 

  随着经济社会的发展,以及人们投资意识的增强,人们越来越多的参与到股票市场的经济活动中,股票投资也已经成为人们生活的一个重要组成部分。然而在股票市场中,众多的指标、众多的信息,很难找出对股价更为关键的因素;其次股市结构极为复杂,影响因素具有多样性、相关性。这导致了很难找出股市内在的模式。希望在尽可能全面的收集股市信息的基础上,建立股价预测模。

 

    10.地震预报

 

    根据历史全球大地震的时空图,找出与中国大陆大地震有关的14个相关区,对这些相关区逐一鉴别,选取较优的9个,再根据这9个相关区发生的大震来预测中国大陆在未来一年内会不会有大震发生。

 

    11.穿衣搭配推荐

 

   穿衣搭配是服饰鞋包导购中非常重要的课题,基于搭配专家和达人生成的搭配组合数据,百万级别的商品的文本和图像数据,以及用户的行为数据。期待能从以上行为、文本和图像数据中挖掘穿衣搭配模型,为用户提供个性化、优质的、专业的穿衣搭配方案,预测给定商品的搭配商品集合。

 

    12.依据用户轨迹的商户精准营销

 

   随着用户访问移动互联网的与日俱增,如何根据用户的画像对用户进行精准营销成为了很多互联网和非互联网企业的新发展方向。希望根据商户位置及分类数据、用户标签画像数据提取用户标签和商户分类的关联关系,然后根据用户在某一段时间内的位置数据,判断用户进入该商户地位范围300米内,则对用户推送符合该用户画像的商户位置和其他优惠信息。

 

    13.气象关联分析

 

   在社会经济生活中,不少行业,如农业、交通业、建筑业、旅游业、销售业、保险业等,无一例外与天气的变化息息相关。为了更深入地挖掘气象资源的价值,希望基于共计60年的中国地面历史气象数据,推动气象数据与其他各行各业数据的有效结合,寻求气象要素之间、以及气象与其它事物之间的相互关系,让气象数据发挥更多元化的价值。

 

    14.交通事故成因分析

 

   随着时代发展,便捷交通对社会产生巨大贡献的同时,各类交通事故也严重地影响了人们生命财产安全和社会经济发展。希望通过对事故类型、事故人员、事故车辆、事故天气、驾照信息、驾驶人员犯罪记录数据以及其他和交通事故有关的数据进行深度挖掘,形成交通事故成因分析方案。

 

    15.基于兴趣的实时新闻推荐

 

   随着近年来互联网的飞速发展,个性化推荐已成为各大主流网站的一项必不可少服务。提供各类新闻的门户网站是互联网上的传统服务,但是与当今蓬勃发展的电子商务网站相比,新闻的个性化推荐服务水平仍存在较大差距。希望通过对带有时间标记的用户浏览行为和新闻文本内容进行分析,挖掘用户的新闻浏览模式和变化规律,设计及时准确的推荐系统预测用户未来可能感兴趣的新闻。

 

四、深度学习:机器学习的更高智能进阶


    1.深度学习的背景

 

    2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton和学生Salakhutdinov在Science上发表文章 《Reducing the Dimensionalitg of Data with Neural Neworks》,这篇文章有两个主要观点:1)多隐层神经网络有更厉害的学习能力,可以表达更多特征来描述对象;2)训练深度神经网络时,可通过降维(pre-training)来实现,老教授设计出来的Autoencoder网络能够快速找到好的全局最优点,采用无监督的方法先分开对每层网络进行训练,然后再来微调。该文章的发表翻开了深度学习的新篇章。2013年4月,深度学习技术被《麻省理工学院技术评论》(MIT TechnologyReview)杂志列为2013年十大突破性技术(Breakthrough Technology) 之首。与浅层学习模型依赖人工经验不同,深层学习模型通过构建机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。

 

图34  深度学习的发展历程

 

    2.深度学习的定义


    深度学习是机器学习研究领域的分支,隶属于神经网络体系。深度学习通过建立、模拟人脑的信息处理神经结构来实现对外部输入的数据进行从低级到高级的特征提取,从而能够使机器理解学习数据,获得信息,因具有多个隐藏层的神经网络又被称为深度神经网络。深度学习将数据输入系统后,通过建模及模拟人脑的神经网从而进行学习的技术,像生物神经元一样,神经网络系统中有系列分层排列的模拟神经元(信息传递的连接点),且经过每个神经元的响应函数都会分配一个相应的“权值”,表示彼此之间的连接强度。通过每层神经元相互“连接”,计算机就可以由达到最佳方案时所有神经元的加权和,从而可以实现这一决策方案。

 

     3.深度学习的基础和实现

 

    ①深度学习的思想基础一误差逆传播算法(BP算法)

 

    BP神经网络(如图35) 是1986年Rumelhart和McClelland等人提出的,是一种按误差逆传播算法训练的多层前馈神经网络,它存储大量映射模式关系,无需揭示其映射方程。BP算法的核心思想是采用最速下降法(梯度下降法),通过反向传播调试网络的权值和阈值,使得其误差平方和最小。

 

    图35 BP神经网络

 

    ②图像处理领域的里程碑一卷积神经网络(CNN)

 

    20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现网络结构可以降低反馈神经网络的复杂性,进而提出了卷积神经网络的概念。由于其避免了对图像的前期预处理,可以直接输入原始图像,CNN已经成为神经网络的标志性代表之一。

 

    图36  卷积神经网络(CNN)

 

    ③深度神经网络的实现基础一玻尔兹曼机和受限玻尔兹曼机

 

    玻尔兹曼机 是Hinton和Sejnowski提出的随机递归神经网络,也可以看做是随机的Hopfield网络,因样本分布遵循玻尔兹曼分布而命名为BM。

 

    图37  玻尔兹曼机

 

    4.深度学习的重大成就

 

    利用机器学习,人工智能系统获得了归纳推理和决策能力;而深度学习更将这一能力推向了更高的层次。目前,在深度学习中,卷积神经网络(Convolutional Neural Network,简称CNN)作为最有效的深层神经网络,现在已经被越来越多地应用到许多智能领域之中,并且它们越来越像人类了,例如AlphaGo、SIRI和FACEBOOK等都应用了卷积神经网络。在中国目前非常关注的智能制造领域中,制造机器人是深度学习的经典案例,深度学习的机器人能够自动适应外部环境的变化,面对新型任务时可以自动重新调整算法和技术,

 

    5.深度学习的发展展望

 

    深度学习必将成为人工智能发展的核心驱动力。虽然深度学习在实际应用中取得了许多成就,但是仍有局限性:理论研究缺乏、无监督学习能力弱、缺少逻辑推理和记忆能力等。深度学习的研究多是基于实验训练进行的,但是对其内部原理,学习本质研究很少。现在的研究多是在网络架构、参数选择等方面,而且深度学习的还有进一步提升空间,也需要更加完备深入的理论支撑其发展。

 

    目前主流应用还是以监督学习为主的,但在实际生活中,无标签未知的数据占主体,所以更应该应用可以发现事物内在关系的无监督学习,未来还有更广阔的发展空间。深度学习是人工智能发展的巨大推力,目前阶段中深度学习更侧重于处理数据,在面对更复杂的任务时,则需要更多记忆能力和逻辑推理能力。

 

    五:机器学习的未来:挑战与机遇并存

 

    机器学习是人工智能应用的又一重要研究领域。当今,尽管在机器学习领域已经取得重大技术进展,但就目前机器学习发展现状而言,自主学习能力还十分有限,还不具备类似人那样的学习能力,同时机器学习的发展也面临着巨大的挑战,诸如泛化能力、速度、可理解性以及数据利用能力等技术性难关必须克服。但令人可喜的是,在某些复杂的类人神经分析算法的开发领域,计算机专家已经取得了很大进展,人们已经可以开发出许多自主性的算法和模型让机器展现出高效的学习能力。对机器学习的进一步深入研究,势必推动人工智能技术的深化应用与发展。




延展阅读:每个人都应该知道的3种机器学习算法


来源:软件定义世界(SDX)


作者:Eleni Markou   翻译:Vincent

  原文连接http://geek.csdn.net/news/detail/240232

译者注:决策树 & 聚类算法 & 线性回归:应该使用哪种机器学习算法?使用它的原因是什么?作者在本文中详细介绍了这些内容。以下为译文。

假设有一些跟数据相关的难题需要你去解决。之前你已经听过机器学习算法的厉害之处了,因此你自己也想借此机会尝试一番——但是你在这个领域并没有经验或知识。于是你开始用谷歌搜索一些术语,比如“机器学习模型”和“机器学习方法”,但一段时间后,你发现自己在不同算法之间已经完全迷失了,所以便开始放弃了。

坚持才能胜利!

幸运的是,我将在本文介绍三个主要的机器学习算法,了解了这些内容后,我相信针对于大多数的数据科学难题,你都可以满怀自信去解决。

在下面的文章中,我们将讨论决策树、聚类算法和回归,指出它们之间的差异,并找出如何根据不同的案例选择最合适的模型。

有监督学习 VS 无监督学习

理解机器学习的基础就是如何对有监督学习和无监督学习这两个大类进行分类的问题,因为机器学习问题中的任何一个问题最终都是这两个大类中的某一个。

在有监督学习的情况下,我们有数据集,某些算法会将这些数据集作为输入。前提是我们已经知道正确的输出格式应该是什么样子(假设输入和输出之间存在某种关系)。

稍后我们看到的回归和分类问题都是属于这一类。

另一方面,无监督学习适用于我们不确定或者不知道正确的输出应该是什么样子的情况。事实上,我们需要根据数据推导出正确的结构应该是什么样。聚类问题是该类的主要代表。

为了使上述分类更加清晰,我将列举一些现实世界的问题,并尝试对它们进行相应的分类。

实例1

假设你在经营一家房地产公司。考虑到新房子的特点,你想基于之前记录的其他房子的销售情况,从而预测这间房屋的销售价格应该在什么价位。输入的数据集包含多个房子的特征,比如浴室的数量和大小,而你想要预测的变量,通常称为目标变量,在本例子中也就是价格。因为已经知道了数据集中房子的出售价格,因此这是一个有监督学习的问题,说的更具体一点,这是一个关于回归的问题。

实例2

假设你做了一项实验,根据某些物理测量结果以及遗传因素,来推断某人是否会发展成为近视眼。在这种情况下,输入的数据集是由人体医学特征组成的,目标变量是双重的:1表示那些可能发展近视的人,0表示没有成为近视眼的人。由于已经提前知道了参与实验者的目标变量的值(即你已经知道如果他们是否是近视),这又是一个有监督学习的问题——更具体地说,这是一个分类的问题。

实例3

假设你负责的公司有很多的客户。根据他们最近与公司的互动结果,最近购买的产品,以及他们的人口统计资料,你想要把相似的客户组成一个群体,以不同的方式来对待他们——比如给他们提供独家折扣券。在这种情况下,将会使用上面提到的某些特性作为算法的输入,而算法将决定应该客户群的数量或类型。这是无监督学习最典型的一个例子,因为我们事先根本就不知道输出结果应该是怎样的。

话虽如此,现在是实现我的承诺的时候了,来介绍一些更具体的算法……

回归

首先,回归不是单一的有监督学习的技术,而是许多技术所属的整个类别。

回归的主要思想是给定一些输入变量,我们想要预测目标变量的值是什么样的。在回归的情况下,目标变量是连续的——这意味着它可以在指定范围内取任意的值。另一方面,输入变量既可以是离散的,也可以是连续的。

在回归技术中,最广为人知的就是线性回归和逻辑回归了。让我们仔细研究研究。

线性回归

在线性回归中,我们试图建立输入变量与目标变量之间的关系,这种关系是由一条直线表示的,通常称为回归线。

例如,假设我们有两个输入变量X1和X2以及一个目标变量Y,这种关系可以用数学形式表示:

Y = a * X1 + b*X2 +c

假设已经提供了X1和X2的值,我们的目标是对a、b、c三个参数进行调整,从而使Y尽可能接近实际值。

花点时间讲个例子吧!

假设我们已经有了Iris数据集,它已经包含了不同类型的花朵的萼片和花瓣的大小数据,例如:Setosa,Versicolor和Virginica。

使用R软件,假设已经提供了花瓣的宽度和长度,我们需要实现一个线性回归来预测萼片的长度。

在数学上,我们将通过如下关系是获取a、b的值:

SepalLength = a * PetalWidth + b* PetalLength +c

相应的代码如下:

# Load required packages library(ggplot2) # Load iris dataset data(iris) # Have a look at the first 10 observations of the dataset head(iris) # Fit the regression line fitted_model <- lm(Sepal.Length ~ Petal.Width + Petal.Length, data = iris) # Get details about the parameters of the selected model summary(fitted_model) # Plot the data points along with the regression line ggplot(iris, aes(x = Petal.Width, y = Petal.Length, color = Species)) + geom_point(alpha = 6/10) + stat_smooth(method = "lm", fill="blue", colour="grey50", size=0.5, alpha = 0.1)

线性回归的结果如下图所示,黑点表示初始数据点在蓝线拟合回归直线,于是便有了估算结果,a= -0.31955,b = 0.54178,和c = 4.19058,这个结果可能最接近实际情况,即花萼的长度。

从现在开始,通过将花瓣长度和花瓣宽度的值应用到定义的线性关系中来,新出现的数据点我们也可以预测它的长度了。

逻辑回归

这里的主要思想和线性回归完全一样。最大的不同就是回归线不再是直的的。

相反,我们试图建立的数学关系是类似于以下形式:

Y=g(a*X1+b*X2)

这里的g()就是逻辑函数。

由于logistic函数的性质,Y是连续的,在[0,1]范围内,可以理解为事件发生的概率。

我知道你喜欢例子,所以我再给你看一个!

这次,我们将对mtcars数据集进行实验,该数据集包括燃料消耗和汽车设计的10个方面,以及1973 - 1974年生产的32辆汽车的性能。

使用R,我们将根据V/S和Miles/(US)加仑的测量值,预测自动变速器(am = 0)或手动(am = 1)汽车的概率。

am = g(a * mpg + b* vs +c):

# Load required packages library(ggplot2) # Load data data(mtcars) # Keep a subset of the data features that includes on the measurement we are interested in cars <- subset(mtcars, select=c(mpg, am, vs)) # Fit the logistic regression line fitted_model <- glm(am ~ mpg+vs, data=cars, family=binomial(link="logit")) # Plot the results ggplot(cars, aes(x=mpg, y=vs, colour = am)) + geom_point(alpha = 6/10) + stat_smooth(method="glm",fill="blue", colour="grey50", size=0.5, alpha = 0.1, method.args=list(family="binomial"))

结果如下图所示,其中黑点代表数据集的初始点,蓝色线代表a = 0.5359,b = - 2.7957,c = - 9.9183的拟合逻辑回归线。

正如前面所提到的,我们可以观察到由于回归线的形式,logistic回归输出值只在范围[0,1]中。

对于任何以V/S和Miles/(US)加仑为标准的新车,我们现在可以预测这辆车自动变速器的概率。

决策树

决策树是我们将要研究的第二种机器学习算法。决策树最终分裂成了回归和分类树,因此可以用于有监督学习问题。

诚然,决策树是最直观的算法之一,它们可以模仿人们在大多数情况下的决定方式。他们所做的基本上就是绘制出所有可能路径的“地图”,并在每种情况下画出相应的结果。

图形表示将有助于更好地理解我们正在讨论的内容。

基于这样一棵树,算法可以根据相应的标准值决定在每个步骤中遵循哪条路径。算法选择分割标准的方式和每个级别的相应阈值,取决于候选变量对目标变量的信息量,以及哪个设置最小化了所产生的预测错误。

这里还有一个例子!

这一次讨论的数据集是readingSkills。它包括了学生的考试成绩和分数。

我们将基于多种指标把学生分为母语为英语的人(nativeSpeaker = 1)或外国人(nativeSpeaker = 0),包括他们在测试中的得分,他们的鞋码,以及他们的年龄。

对于R中的实现,我们首先需要安装party包。

# Include required packages library(party) library(partykit) # Have a look at the first ten observations of the dataset print(head(readingSkills)) input.dat <- readingSkills[c(1:105),] # Grow the decision tree output.tree <- ctree( nativeSpeaker ~ age + shoeSize + score, data = input.dat) # Plot the results plot(as.simpleparty(output.tree))

我们可以看到,使用的第一个分裂标准是分数,因为它在预测目标变量时非常重要,而鞋子的大小并没有被考虑在内,因为它没有提供任何关于语言的有用信息。

现在,如果我们有了一个新学生,知道他们的年龄和分数,我们就可以预测他们是不是一个以英语为母语的人!

聚类算法

到目前为止,我们只讨论了一些关于有监督学习的问题。现在,我们继续研究聚类算法,而它则是无监督学习方法的子集。

所以,只是稍微修改了一点…

对于集群,如果有一些初始数据进行支配,我们想要形成一个组,这样一些组的数据点是相似的,并且不同于其他组的数据点。

我们将要学习的算法叫做k-means,k表示产生的簇的数量,这是最流行的聚类方法之一。

还记得我们之前用过的Iris数据集吗?我们将再次使用它。

为了研究,我们用他们的花瓣测量方法绘制了数据集的所有数据点,如下图所示:

基于花瓣的度量值,我们将使用3-means clustering方法将数据点聚集成3组。

那么3-means,或者说是k-means算法是如何工作的呢?整个过程可以用几个简单的步骤来概括:

  1. 初始化步骤:对于k = 3簇,算法随机选取3个点作为每个集群的中心点。

  2. 集群分配步骤:算法通过其余的数据点,并将每个数据点分配给最近的集群。

  3. Centroid移动步骤:在集群分配之后,每个集群的中心点移动到属于集群的所有点的平均值。

步骤2和步骤3重复多次,直到对集群分配没有更改。R中k-means算法的实现很简单,可以用以下代码实现:

# Load required packages library(ggplot2) library(datasets) # Load data data(iris) # Set seed to make results reproducible set.seed(20) # Implement k-means with 3 clusters iris_cl <- kmeans(iris[, 3:4], 3, nstart = 20) iris_cl$cluster <- as.factor(iris_cl$cluster) # Plot points colored by predicted cluster ggplot(iris, aes(Petal.Length, Petal.Width, color = iris_cl$cluster)) + geom_point()

从结果中可以看出,该算法将数据分成三组,分别用三种不同的颜色表示。我们也可以观察到这些簇是根据花瓣的大小形成的。更具体地说,红色表示花瓣小的花,绿色表示花瓣相对较大的蝴蝶花,而蓝色则表示中等大小的花瓣。

值得注意的是,在任何聚类中,对形成群体的解释都需要在该领域有一些专家知识。在我们的例子中,如果你不是一个植物学家,你可能不会意识到k - means所做的是把iris聚集到他们不同的类型,例如Setosa,Versicolor和Virginica,而没有任何关于它们的知识!

因此,如果我们再次绘制数据,这个时间被它们的物种着色,我们将看到集群中的相似性。

总结

我们从一开始就走了很长一段路。我们讨论了回归(线性和逻辑)和决策树,最后讨论了k - means集群。我们还在R中实现了一些简单但强大的方法。

那么,每种算法的优点是什么呢?在现实生活中,你应该选择哪一个?

首先,所呈现的方法并不是一些不适用的算法——它们在世界各地的生产系统中被广泛使用,因此需要根据不同的任务进行选择,选择恰当的话可以变得相当强大。

其次,为了回答上述问题,你必须清楚你所说的优点究竟是什么意思,因为每种方法在不同环境中展现出来的优点是不同的,例如解释性、稳健性、计算时间等。

现在,我们终于可以自信地将这些知识应用于一些实际的问题了!




人工智能赛博物理操作系统

AI-CPS OS

人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

  1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

  2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

  3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

  1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

  2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

  3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

  4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

  1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

  2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

  3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


给决策制定者和商业领袖的建议:

  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。





产业智能官  AI-CPS



用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链






长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”


点击“阅读原文”,访问AI-CPS OS官网




本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com





登录查看更多
1

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
80+阅读 · 2020年6月20日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
人机对抗智能技术
专知会员服务
202+阅读 · 2020年5月3日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
196+阅读 · 2020年3月8日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
303+阅读 · 2019年12月23日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
25+阅读 · 2019年11月19日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
121+阅读 · 2019年10月10日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
报告 | 解构与重组:开启智能经济(附PDF下载)
走向智能论坛
10+阅读 · 2019年1月7日
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
2019年机器学习:追踪人工智能发展之路
人工智能学家
4+阅读 · 2018年10月14日
IBM长文解读人工智能、机器学习和认知计算
人工智能学家
5+阅读 · 2018年8月26日
2018年中国人工智能行业研究报告
艾瑞咨询
3+阅读 · 2018年4月2日
【机器学习】机器学习和深度学习概念入门
产业智能官
11+阅读 · 2018年1月3日
人工智能,机器学习和深度学习之间的差异是什么?
大数据技术
6+阅读 · 2017年11月22日
2017中国多媒体大会-智能媒体 创新未来
中国计算机学会
3+阅读 · 2017年8月21日
Arxiv
24+阅读 · 2019年11月24日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
相关VIP内容
专知会员服务
80+阅读 · 2020年6月20日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
人机对抗智能技术
专知会员服务
202+阅读 · 2020年5月3日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
196+阅读 · 2020年3月8日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
303+阅读 · 2019年12月23日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
25+阅读 · 2019年11月19日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
121+阅读 · 2019年10月10日
相关资讯
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
报告 | 解构与重组:开启智能经济(附PDF下载)
走向智能论坛
10+阅读 · 2019年1月7日
【机器学习】机器学习:未来十年研究热点
产业智能官
16+阅读 · 2018年11月4日
2019年机器学习:追踪人工智能发展之路
人工智能学家
4+阅读 · 2018年10月14日
IBM长文解读人工智能、机器学习和认知计算
人工智能学家
5+阅读 · 2018年8月26日
2018年中国人工智能行业研究报告
艾瑞咨询
3+阅读 · 2018年4月2日
【机器学习】机器学习和深度学习概念入门
产业智能官
11+阅读 · 2018年1月3日
人工智能,机器学习和深度学习之间的差异是什么?
大数据技术
6+阅读 · 2017年11月22日
2017中国多媒体大会-智能媒体 创新未来
中国计算机学会
3+阅读 · 2017年8月21日
相关论文
Arxiv
24+阅读 · 2019年11月24日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
5+阅读 · 2018年10月4日
Top
微信扫码咨询专知VIP会员