从基础概念到数学公式,这是一份520页的机器学习笔记(图文并茂)

2018 年 4 月 30 日 机器之心

机器之心整理

笔记作者:Jim Liang


近日,来自SAP(全球第一大商业软件公司)的梁劲(Jim Liang)公开了自己所写的一份 520 页的学习教程(英文版),详细、明了地介绍了机器学习中的相关概念、数学知识和各种经典算法。机器之心看到后,也迫不及待的推广给更多的读者。完整的 PDF 请从文后作者公开的链接下载。


在介绍中,Jim Liang 写到:


人工智能是这两年风头正劲的领域,也是未来具有颠覆性可能的新领域。不少人尝试去学习机器学习相关的知识。然而,一旦越过最初的 overview 阶段,很多人就开始打退堂鼓了,然后迅速放弃。


为什么会这样?


极 高 的 学 习 曲 线


  • 首当其冲就是数学,涉及统计学、微积分、概率、线性代数等,大家虽然都学过高等数学,但如果你还记得里面的细节,算你牛。更可能的情况是,多数人都对高等数学忘记了,面对各种算法里的大量公式,感到厌恶,甚至恐惧。

  • 其次因为机器学习本身是一个综合性学科,而且是一个快速发展的学科,知识点散乱,缺乏系统性。

  • 市面上的机器学习/深度学习书籍、文章、教程,遍地开花,但能以清晰的方式表达、循序渐进地讲解的教程,其实不多,大量的教程没有考虑到学习者的基础,使得初学者感到挫败和困惑。


图 解 机 器 学 习


正是对机器学习的过程中的痛苦有切身体会,我希望能做一份教程,以浅显易懂的方式去讲解它,降低大家的学习门槛。我为此花费了数月时间,经常做到深夜,把自己的学习笔记整理成了这份教程。


从结构来看,全部教程包含两部分:



Part 1 介绍了基本概念,包括:


  • 机器学习的流程

  • 数据处理

  • 建模

  • 评估指标(如 MSE、ROC 曲线)

  • 模型部署

  • 过度拟合

  • 正则化等


在第一部分,作者先介绍了如今应用普遍的机器学习:从自动驾驶、语音助手到机器人。其中有些思想,也是众多读者们了解过的,例如:为何机器学习在这个时候会火(大数据、计算力、更好的算法);机器学习、人工智能、深度学习三者的关系等。


除了这些基础概念,这份教程也对机器学习模型的开发流程做了图像化展示(如下图),即使对此不太了解的读者,也能通过这种流程展示有所学习。


建立机器学习解决方案的步骤


在 Part1 的其他小节,作者以类似的图像展示,对数据、建模、模型部署等内容做了详细介绍,这里就不一一列举,可以从原报告查看。


在 Part2,作者介绍了 常用的算法,包括:


  • 线性回归

  • 逻辑回归

  • 神经网络

  • SVM

  • Knn

  • K-Means

  • 决策树

  • 随机森林

  • AdaBoost

  • 朴素贝叶斯

  • 梯度下降

  • 主成分分析


这部分包含了大量的数学公式,但作者尽力注解了其中的每个公式,从而充分、清晰地表达了众多数学概念。


例如在「神经网络」部分,作者整理了 59 页的笔记(从 311 页到 369 页)。作者从人脑中的神经元架构说起,介绍了人工神经网络(ANN)、人工神经元工作的原理。这份笔记非常注重图像化的概念解释,理解起来非常直观。


例如,下图中的概念解释很形象地展现了生物神经元和人工神经元工作方式的相似性。


生物神经元的树突输入-轴突输出模式和人工神经元的输入输出模式对比。


过拟合的解释。


人工神经元的基础结构。


在涉及到数学公式时,作者会在旁边有详细的注解,如下图所示:



对于并列的可选项(如激活函数、常用神经网络架构等),也会有全面的列表:


常用的激活函数。


然后会有每个激活函数的单独介绍:



Sigmoid 激活函数。


用神经网络分类手写数字的前向传播示例(softmax 激活函数)。


对于神经网络中较为复杂的概念(如求导、反向传播),几张图就能解释清楚:



关于神经网络的完整训练过程,作者用简略流程图+计算细节展开的方式呈现:


反向传播算法完整流程。


前向传播部分的计算细节。


就像前面提到的,这部分除了「神经网络」的介绍,还包括随机森林、梯度下降等概念的介绍,读者们可查看原教程。


总结


看完这份教程之后,小编觉得这是一份包罗万象的学习笔记,既适合非专业人士了解有关机器学习的基础概念,又适合有专业背景的学生进一步学习。


写教程是为了自己持续学习,分享教程是为了帮助更多人学习。就像作者所说,「Learning by doing/teaching, 写这个教程主要是强迫自己持续学习,另外,也想分享给他人,希望能帮助到更多想学习 Machine Learning 的人,降低大家的学习痛苦。」


教程文档下载地址(百度云):https://pan.baidu.com/s/1tNXYQNadAsDGfPvuuj7_Tw


本文为机器之心整理,转载请联系原作者获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:editor@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

登录查看更多
7

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【经典书】机器学习高斯过程,266页pdf
专知会员服务
195+阅读 · 2020年5月2日
一份简短《图神经网络GNN》笔记,入门小册
专知会员服务
224+阅读 · 2020年4月11日
干货书《数据科学数学系基础》2020最新版,266页pdf
专知会员服务
318+阅读 · 2020年3月23日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
520 页机器学习笔记!图文并茂可能更适合你
大数据技术
19+阅读 · 2019年10月8日
学术派整理,一份从基础到实战的 NLP 学习清单
人工智能头条
7+阅读 · 2019年2月13日
做机器学习和AI必备的42个数学知识点
AI前线
9+阅读 · 2018年12月6日
干货 | 机器学习怎么从入门到不放弃!
THU数据派
6+阅读 · 2018年6月8日
入门 | 一文介绍机器学习中基本的数学符号
机器之心
28+阅读 · 2018年4月9日
【机器学习】机器学习和深度学习概念入门
产业智能官
11+阅读 · 2018年1月3日
搞人工智能必备“数学库”
机器学习算法与Python学习
5+阅读 · 2017年11月20日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
Arxiv
7+阅读 · 2020年3月1日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
4+阅读 · 2018年5月21日
Arxiv
4+阅读 · 2018年4月30日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关VIP内容
相关资讯
520 页机器学习笔记!图文并茂可能更适合你
大数据技术
19+阅读 · 2019年10月8日
学术派整理,一份从基础到实战的 NLP 学习清单
人工智能头条
7+阅读 · 2019年2月13日
做机器学习和AI必备的42个数学知识点
AI前线
9+阅读 · 2018年12月6日
干货 | 机器学习怎么从入门到不放弃!
THU数据派
6+阅读 · 2018年6月8日
入门 | 一文介绍机器学习中基本的数学符号
机器之心
28+阅读 · 2018年4月9日
【机器学习】机器学习和深度学习概念入门
产业智能官
11+阅读 · 2018年1月3日
搞人工智能必备“数学库”
机器学习算法与Python学习
5+阅读 · 2017年11月20日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
相关论文
Arxiv
7+阅读 · 2020年3月1日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
4+阅读 · 2018年5月21日
Arxiv
4+阅读 · 2018年4月30日
Arxiv
10+阅读 · 2018年3月23日
Top
微信扫码咨询专知VIP会员