推荐 :带你认识机器学习的的本质(附资料)

2019 年 3 月 18 日 数据分析

作者:Matthew Mayo 翻译:张玲 校对:李洁

本文2200字,建议阅读10分钟

本文总结了四种机器学习主流定义,分别从学习的优化过程、计算力、相似性和算法,研究了先驱者们和著名研究员们对机器学习本质的理解。


这是一篇不是十分正式的文章,旨在探讨机器学习的本质。毫无疑问,过去你已经读过许多关于机器学习的深度或半深度的文章,并探索了它与众多其他主题的关系。当讨论这样复杂的概念,最好从最初的一些共同参考资料开始。可问题是,对于机器学习这样的主题,存在着无数这样的参考资料。


所以我想,为什么不深入研究下这些参考资料呢?



来源:https://imarticus.org/what-is-machine-learning-and-does-it-matter/

干脆我们来探讨一下机器学习的定义,将其视作是一个语义学的练习。


汤姆米切尔(Tom Mitchell)


第一个定义,是我个人最喜欢的,由著名的计算机科学家、机器学习研究员,卡内基梅隆大学的汤姆米切尔(Tom Mitchell)教授提出。


对于某类任务T和性能度量P,如果一个计算机程序在某些任务T上以P度量的性能随着经验E的增加而提高,那么我们称这个计算机程序是在从经验E中学习[1]。


Mitchell的这个定义在机器学习领域中是众所周知的,而且是经过时间验证的,这句话首次出现在Mitchell 1977年出版的《Machine Learning》一书中。


这句话对我有很大的影响,多年来我多次提及它,在硕士论文中也引用了它。此外,Goodfellow、Bengio 和 Courville最新出版的权威著作《Deep Learning》中,这段引文在其第5章中格外显眼,因为他们将其作为该书解释学习算法的起点。


图1是Mitchell定义范式的说明。


图1:Mitchell 定义范式

 

伊恩·古德费罗(Ian Goodfellow)、约舒亚·本吉奥(Yoshua Bengio)和亚伦·库尔维尔(Aaron Courville)


提到伊恩·古德费罗(Ian Goodfellow)、约舒亚·本吉奥(Yoshua Bengio)和亚伦·库尔维尔(Aaron Courville),就不得不提他们合著的《Deep Learning》,其中对机器学习的定义是这样的:


机器学习本质上属于应用统计学,更多地关注如何利用计算机对复杂函数进行统计估计,而不太关注如何估算这些函数的置信区间[2]。


在实际应用中,不再使用Mitchell对机器学习的定义,原因是它没有规范性地给出如何实现优化的说明,只是侧重于说明与机器学习优化过程相关的特定组件。相反,《Deep Learning》中对机器学习的定义实际上则更规范些。它指出,当不再强调传统的置信区间时,应当最大化利用计算力(实际上强调了对计算力的利用)。


伊恩·威腾(Ian Witten)、埃贝·弗兰克(Eibe Frank)和马克·霍尔(Mark Hall)


在我看来,另一个特别值得关注的机器学习定义来自Witten, Frank & Hall 所著的《Data Mining: Practical Machine Learning Tool and Techniques》,这是我完整地阅读有关这个主题的第一本书。这本书很少涉及数学,但有很多实用性的解释,所以一直以来都是我为机器学习领域新手推荐必读书目的首选(可能有偏见)。


他们最开始探讨机器学习定义的方式有些零散,试图在机器学习和数据挖掘的背景下将学习、性能和知识的概念组合在一起。离题部分已被剔除,以下是值得关注的引文:


我们感兴趣的是新情境下性能的提升或者是性能提升的潜力。


当以一种可以使自身在未来表现更好的方式改变自己的行为时,就是在学习。


学习意味着思考和目标,必须有目标地去学习。


经验表明,在机器学习和数据挖掘的许多应用中,获得清晰的知识结构,即结构化描述,以及在新实例预测中表现良好的能力,这两者至少是同样重要的。人们通常使用数据挖掘来获取知识,而不仅仅是用来预测[3]。


“数据挖掘”这个术语是机器学习的补充术语的说法是不需要关注的。上述引文出自这本书的第3版,出版于2011年,当时数据挖掘比现在更有吸引力;删掉数据挖掘的相关内容,本书仍然适用于机器学习本身。


不管怎样,虽然Witten, Frank & Hall在序言中贬低了他们想要偏离哲学性的希望,他们实际上做了一项非常棒的工作,变得有一些哲学性。这本书提供了有一定帮助作用的摘录,因为它为机器学习的定义提供了一个不同的角度:Mitchell专注于优化过程的特定组件,Goodfellow、Bengio和Courville倾向于更规范的定义,指出计算力的相对重要性,而这本书则尝试关注“学习”的哪些方面在机器学习过程中是相似的和重要的。上述引文还提供了重要的一点,颇具哲学性和实用性,即在最后一段中指出,获得知识和使用知识的能力都是机器学习的重点部分(见训练和推理)。


克里斯托弗·毕肖普(Christopher Bishop)


让我们来看看最后一篇文章-学者Christopher Bishop的《模式识别和机器学习》对机器学习的定义。值得注意的是,Bishop并没有开门见山地定义这个术语,而是以算法为中心,间接地为机器学习提供了非常好的定义(在数字分类任务中讨论到)。


机器学习算法的结果可以表示为一个函数 y (x),输入新数字图像 x,产生向量 y,用同样的方法编码来作为目标向量。在训练阶段(即学习阶段),根据训练数据确定y (x)精确的形式。一旦训练完模型,就可以用它来确认测试集中新数字图像的类别,正确分类新数字图像的能力被称为泛化,这些新数字图像不同于训练时的数字图像。在实际应用中,输入向量的多样性使得训练数据只能包含所有可能输入向量中的一小部分,因此泛化是模式识别的核心目标[4]。


首先,当谈论“模式识别时”,我们讨论的是有监督机器学习,而不是无监督学习或强化学习(或其他形式的机器学习)。第二,更重要的是,这是唯一一个阐述机器学习处理步骤的定义,无论这些步骤在这个示例中是否简短。同样有趣的是,随后的内容以及Bishop书一半的篇幅简述了许多额外的机器学习概念,并将它们很好地结合在一起。这本书提供了具有可读性的概述而没有陷入数学的泥潭中(大部分内容做到了这一点)。


所以,我们有四种定义机器学习的方法:


  • 第一种是根据优化过程,抽象地定义机器学习;

  • 第二种是更具规范性的定义,指出计算力在机器学习中的重要性;

  • 第三种是关注“学习”哪些方面在机器学习过程中是相似的和重要的;

  • 最后一种是从算法角度概述机器学习。


这些定义都没有错误,但都不是完整的。


这不仅仅是语义学的任务,探讨先驱者们和受人尊敬的学者们所认为的“机器学习”定义将有助于扩展我们自己对机器学习的定义。


参考资料: 


[1] Machine Learning, Tom Mitchell, McGraw Hill, 1997. 

http://www.cs.cmu.edu/afs/cs.cmu.edu/user/mitchell/ftp/mlbook.html


[2] Deep Learning, Ian Goodfellow, Yoshua Bengio & Aaron Courville, MIT Press, 2016. 

https://www.deeplearningbook.org/


[3] Data Mining: Practical Machine Learning Tools and Techniques (3rd ed.), Ian Witten, Eibe Frank & Mark Hall, Morgan Kaufmann, 2011. 

https://www.cs.waikato.ac.nz/ml/weka/book.html


[4] Pattern Recognition and Machine Learning, Christopher M. Bishop, Springer, 2006.

https://www.springer.com/gp/book/9780387310732


原文标题:

The Essence of Machine Learning

原文链接:

https://www.kdnuggets.com/2018/12/essence-machine-learning.html


译者简介:张玲,在岗数据分析师,计算机硕士毕业。从事数据工作,需要重塑自我的勇气,也需要终生学习的毅力。但我依旧热爱它的严谨,痴迷它的艺术。数据海洋一望无境,数据工作充满挑战。感谢数据派THU提供如此专业的平台,希望在这里能和最专业的你们共同进步!


转自:数据派THU ;

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

关联阅读

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

8:上班一周了,【就业季】对2018年交满意的答卷...

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系    

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据分析

合作请加qq:365242293  


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

登录查看更多
2

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【经典书】机器学习高斯过程,266页pdf
专知会员服务
228+阅读 · 2020年5月2日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
338+阅读 · 2020年3月17日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
专知会员服务
115+阅读 · 2019年12月24日
CMU博士论文:可微优化机器学习建模
专知会员服务
58+阅读 · 2019年10月26日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
421页《机器学习数学基础》最新2019版PDF下载
独家 | 带你认识机器学习的的本质(附资料)
数据派THU
22+阅读 · 2019年3月13日
100页机器学习入门完整版,初学者必备!
专知
25+阅读 · 2018年12月18日
史上最全人工智能进阶干货
PaperWeekly
3+阅读 · 2018年10月13日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
推荐|给你12本热门的深度学习书籍
全球人工智能
17+阅读 · 2018年3月18日
人工智能入门书单(附PDF链接)
InfoQ
26+阅读 · 2018年1月24日
干货 | 自然语言处理入门资料推荐
机器学习算法与Python学习
14+阅读 · 2018年1月2日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
5+阅读 · 2018年10月11日
Arxiv
12+阅读 · 2018年9月5日
VIP会员
相关VIP内容
【经典书】机器学习高斯过程,266页pdf
专知会员服务
228+阅读 · 2020年5月2日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
338+阅读 · 2020年3月17日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
专知会员服务
115+阅读 · 2019年12月24日
CMU博士论文:可微优化机器学习建模
专知会员服务
58+阅读 · 2019年10月26日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
相关资讯
421页《机器学习数学基础》最新2019版PDF下载
独家 | 带你认识机器学习的的本质(附资料)
数据派THU
22+阅读 · 2019年3月13日
100页机器学习入门完整版,初学者必备!
专知
25+阅读 · 2018年12月18日
史上最全人工智能进阶干货
PaperWeekly
3+阅读 · 2018年10月13日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
推荐|给你12本热门的深度学习书籍
全球人工智能
17+阅读 · 2018年3月18日
人工智能入门书单(附PDF链接)
InfoQ
26+阅读 · 2018年1月24日
干货 | 自然语言处理入门资料推荐
机器学习算法与Python学习
14+阅读 · 2018年1月2日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
Top
微信扫码咨询专知VIP会员