关于机器学习,你需要知道的三件事!

2018 年 3 月 3 日 云栖社区

云栖君导读:MATLAB开发运营团队深度解析何为机器学习,什么时候使用机器学习,如何选择机器学习算法,MATLAB到底能为机器学习提供怎样的便利?


机器学习是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。


一.机器学习为什么那么重要?


随着大数据应用增加,机器学习已成为解决以下领域问题的一项关键技术:


  1. 计算金融学,用于信用评估和算法交易。


  2. 图像处理和计算机视觉,用于人脸识别、运动检测和对象检测。


  3. 计算生物学,用于肿瘤检测、药物发现和 DNA 序列分析。


  4. 能源生产,用于预测价格和负载。


  5. 汽车、航空航天和制造业,用于预见性维护。


  6. 自然语言处理,用于语音识别应用。



更多数据、更多问题、更好的解答


机器学习算法能够在产生洞察力的数据中发现自然模式,帮助你更好地制定决策和做出预测。医疗诊断、股票交易、能量负荷预测及更多行业每天都在使用这些算法制定关键决策。例如,媒体网站依靠机器学习算法从数百万种选项中筛选出为你推荐的歌曲或影片。零售商利用这些算法深入了解客户的购买行为。


何时应该使用机器学习?


当你遇到涉及大量数据和许多变量的复杂任务或问题,但没有现成的处理公式或方程式时,可以考虑使用机器学习。例如,如果你需要处理以下情况,使用机器学习是一个很好的选择:



二.机器学习的工作原理:


机器学习采用两种技术:监督式学习和无监督学习。监督式学习根据已知的输入和输出训练模型,让模型能够预测未来输出;无监督学习从输入数据中找出隐藏模式或内在结构。



监督式学习:


监督式机器学习能够根据已有的包含不确定性的数据建立一个预测模型。监督式学习算法接受已知的输入数据集(包含预测变量)和对该数据集的已知响应(输出,响应变量),然后训练模型,使模型能够对新输入数据的响应做出合理的预测。如果你尝试去预测已知数据的输出,则使用监督式学习。


监督式学习采用分类和回归技术开发预测模型。


分类技术可预测离散的响应 — 例如,电子邮件是不是垃圾邮件,肿瘤是恶性还是良性的。分类模型可将输入数据划分成不同类别。典型的应用包括医学成像、语音识别和信用评估。


如果你的数据能进行标记、分类或分为特定的组或类,则使用分类。例如,笔迹识别的应用程序使用分类来识别字母和数字。在图像处理和计算机视觉中,无监督模式识别技术用于对象检测和图像分割。


用于实现分类的常用算法包括:支持向量机 (SVM)、提升 (boosted) 决策树和袋装 (bagged) 决策树、k-最近邻、朴素贝叶斯 (Naïve Bayes)、判别分析、逻辑回归和神经网络。


回归技术可预测连续的响应 — 例如,温度的变化或电力需求中的波动。典型的应用包括电力系统负荷预测和算法交易。


如果你在处理一个数据范围,或你的响应性质是一个实数(比如温度,或一件设备发生故障前的运行时间),则使用回归方法。


常用回归算法包括:线性模型、非线性模型、规则化、逐步回归、提升 (boosted) 和袋装 (bagged) 决策树、神经网络和自适应神经模糊学习。


小例子:使用监督式学习预测心脏病发作


假设临床医生希望预测某位患者在一年内是否会心脏病发作。他们有以前就医的患者的相关数据,包括年龄、体重、身高和血压。他们知道以前的患者在一年内是否出现过心脏病发作。因此,问题在于如何将现有数据合并到模型中,让该模型能够预测新患者在一年内是否会出现心脏病发作。


无监督学习:


无监督学习可发现数据中隐藏的模式或内在结构。这种技术可根据未做标记的输入数据集得到推论。

聚类是一种最常用的无监督学习技术。这种技术可通过探索性数据分析发现数据中隐藏的模式或分组。聚类分析的应用包括基因序列分析、市场调查和对象识别。


例如,如果移动电话公司想优化他们手机信号塔的建立位置,则可以使用机器学习来估算依赖这些信号塔的人群数量。一部电话一次只能与一个信号塔通信,所以,该团队使用聚类算法设计蜂窝塔的最佳布局,优化他们的客户群组或集群的信号接收。


用于执行聚类的常用算法包括:k-均值和 k-中心点(k-medoids)、层次聚类、高斯混合模型、隐马尔可夫模型、自组织映射、模糊 c-均值聚类法和减法聚类。



如何确定使用哪种机器学习算法?


选择正确的算法看似难以驾驭——需要从几十种监督式和无监督机器学习算法中选择,每种算法又包含不同的学习方法。


没有最佳方法或万全之策。找到正确的算法只是试错过程的一部分——即使是经验丰富的数据科学家,也无法说出某种算法是否无需试错即可使用。但算法的选择还取决于你要处理的数据的大小和类型、你要从数据中获得的洞察力以及如何运用这些洞察力。



下面是选择监督式或者无监督机器学习的一些准则:


  1. 在以下情况下选择监督式学习:你需要训练模型进行预测(例如温度和股价等连续变量的值)或者分类(例如根据网络摄像头的录像片段确定汽车的技术细节)。


  2. 在以下情况下选择无监督学习:你需要深入了解数据并希望训练模型找到好的内部表示形式,例如将数据拆分到集群中。


三.MATLAB机器学习:


你如何借助机器学习的力量,使用数据做出更好的决策?MATLAB 让机器学习简单易行。借助用于处理大数据的工具和函数,以及让机器学习发挥作用的应用程序,MATLAB 是将机器学习应用于你的数据分析的理想环境。


使用 MATLAB,工程师和数据科学家可以立即访问预置的函数、大量的工具箱以及用于分类、回归和聚类的专门应用程序。


MATLAB 可以做到:


  1. 比较各种方法,例如逻辑回归、分类树、支持向量机、集成方法和深度学习。


  2. 使用模型精化和缩减技术创建能够最好地捕捉预测能力的精确模型。


  3. 将机器学习模型集成到企业系统、集群和云中,并且将模型定位于实时嵌入式硬件。


  4. 为嵌入式传感器分析工具执行自动代码生成。


  5. 支持从数据分析到部署的集成工作流程。


本文由阿里云云栖社区组织翻译。

文章原标题《what is machine learning?》

作者:mathworks

译者:虎说八道。


end

《阿里巴巴Android开发手册》正式发布,献给移动开发者的新年礼物

阿里王坚:区块链与数据价值的交换

程序员技术进阶手册(二)

5种最流行的AI编程语言

更多精彩

登录查看更多
3

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
200+阅读 · 2020年2月7日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
118+阅读 · 2019年12月26日
【机器学习课程】机器学习中的常识性问题
专知会员服务
73+阅读 · 2019年12月2日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
24+阅读 · 2019年11月19日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
成为顶尖机器学习算法专家需要知道哪些算法?
云栖社区
5+阅读 · 2018年10月13日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
关于 K means 聚类算法,你需要知道这些东西
AI研习社
3+阅读 · 2018年8月19日
机器学习不能做什么?
引力空间站
5+阅读 · 2018年3月28日
机器学习:从入门到绝不放弃!
图灵教育
5+阅读 · 2018年3月19日
机器学习新手必看10大算法
深度学习世界
4+阅读 · 2018年2月1日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
【干货】机器学习和深度学习概念入门(下)
机器学习研究会
6+阅读 · 2017年12月31日
机器学习初学者必须知道的十大算法
AI研习社
7+阅读 · 2017年12月1日
快速掌握机器学习,这 3 种算法你必须知道
开源中国
8+阅读 · 2017年11月9日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
5+阅读 · 2018年1月16日
VIP会员
相关VIP内容
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
200+阅读 · 2020年2月7日
最新《分布式机器学习》论文综述最新DML进展,33页pdf
专知会员服务
118+阅读 · 2019年12月26日
【机器学习课程】机器学习中的常识性问题
专知会员服务
73+阅读 · 2019年12月2日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
24+阅读 · 2019年11月19日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
142+阅读 · 2019年10月10日
相关资讯
成为顶尖机器学习算法专家需要知道哪些算法?
云栖社区
5+阅读 · 2018年10月13日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
关于 K means 聚类算法,你需要知道这些东西
AI研习社
3+阅读 · 2018年8月19日
机器学习不能做什么?
引力空间站
5+阅读 · 2018年3月28日
机器学习:从入门到绝不放弃!
图灵教育
5+阅读 · 2018年3月19日
机器学习新手必看10大算法
深度学习世界
4+阅读 · 2018年2月1日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
【干货】机器学习和深度学习概念入门(下)
机器学习研究会
6+阅读 · 2017年12月31日
机器学习初学者必须知道的十大算法
AI研习社
7+阅读 · 2017年12月1日
快速掌握机器学习,这 3 种算法你必须知道
开源中国
8+阅读 · 2017年11月9日
相关论文
Top
微信扫码咨询专知VIP会员