吴恩达预热新课!万字博客回顾机器学习算法起源

2022 年 6 月 10 日 新智元



  新智元报道  

编辑:LRS

【新智元导读】吴恩达最近发布了一篇博客,介绍了几个基础算法的起源和直观理解,还宣传了一下自己重置版机器学习课程:目的竟是为了复习一遍!


神经网络模型在学术界和工业界都处于绝对的垄断地位,使得「机器学习」几乎要跟「深度学习」划上等号了。

 

作为深度学习的领军人,吴恩达自然也是深度学习的忠实使用者。

 

最近吴恩达在博客网站上发表了一篇特刊,表示自己由于常年使用神经网络,已经快忘了该怎么用传统的机器学习算法了!

 

 

因为深度学习并非在所有场景下都好用,所以在「盲目」使用神经网络受挫后,痛定思痛,写了一篇文章,为一些传统的机器学习算法提供一些直观上的解释。

 

 

这篇博客也是为即将发布的、由 Stanford Online 和 DeepLearning.AI 联合推出Machine Learning Specialization课程提供一些基础知识,包括线性回归、逻辑回归、梯度下降、神经网络、决策树、K-means聚类等算法。

 

 

吴恩达的来信

 

亲爱的朋友们,

 

几年前,我们计划在有限的计算量预算内将该算法应用于一个庞大的用户群,所以有必要选择一个高效的算法。

 

在神经网络和决策树学习算法之间,我选择了神经网络。

 

因为我已经有一段时间没有使用提升决策树了,我直觉上认为它们需要的计算量比实际要多,但选择神经网络是一个错误的决定。

 

幸运的是,我的团队很快就指出了错误,并修正了我的决定,而这个项目最后也获得了成功。

 

这次经历给我上了一课,告诉我学习和不断刷新基础知识的重要性。如果我重新熟悉了提升树,我就会做出更好的决定。

 

 

机器学习和其他技术领域一样,随着研究人员社区在彼此工作的基础上不断发展,一些贡献经过时间的考验后,长盛不衰,并成为进一步发展的基础。

 

从住房价格预测器到文本、图像生成器,一切新算法都建立在基础算法上(例如线性和逻辑回归、决策树等)和基础概念(如正则化、优化损失函数、偏差/方差等)的核心思想上。

 

坚实的、时刻更新的基础知识是成为一名高效的机器学习工程师的一个关键。许多团队在日常工作中都会用到这些想法,而博客文章和研究论文也常常假定你对这些思想很熟悉,这些常识基础对于我们近年来看到的机器学习的快速进步至关重要。

 

这也是为什么我把原来的机器学习课程进行了更新。

 

 

我的团队花了很多时间来讨论最核心的教学概念,为各种主题制定了广泛的教学大纲,并在其中设计了课程单元的原型。

 

这个过程帮助我们认识到,主题的多样性比细节的知识更重要,所以我们又重新制作了一份大纲。

 

我希望最后的结果是一套易于理解的课程,能够帮助任何人掌握当今机器学习中最重要的算法和概念,包括深度学习,但也包括很多其他东西,并能够建立有效的学习系统。

 

本着这种精神,我们决定探讨一些领域内最重要的算法,解释了它们是如何工作的,并介绍它们不为人知的起源。

 

如果你是一个初学者,我希望它能帮助你揭开机器学习核心的一些方法的神秘面纱。

 

对于那些老手来说,你会在熟悉的领域中发现一些鲜为人知的观点。

 

学无止境,保持学习!

吴恩达

 

线性回归

 

线性回归(Linear regression)可能是机器学习中的最重要的统计方法,至于谁发明了这个算法,一直争论了200年,仍未解决。

 

1805年,法国数学家勒让德(Adrien-Marie Legendre)在预测一颗彗星的位置时,发表了将一条线拟合到一组点上的方法。天体导航是当时全球商业中最有价值的科学,就像今天的人工智能一样。

 

四年后,24岁的德国天才数学家高斯(Carl Friedrich Gauss)坚持认为,他自1795年以来一直在使用这种方法,但他认为这种方法太过琐碎,无法写出来。高斯的说法促使Legendre发表了一份匿名的附录,指出「一位非常有名的几何学家毫不犹豫地采用了这种方法」。

 

这类长期存在发明争议的算法都有两个特点:好用,且简单!

 

线性回归的本质上就是斜率(slopes)和截距(biases,也称偏置)。

 

当一个结果和一个影响它的变量之间的关系是一条直线时,线性回归就很有用。

 

例如,一辆汽车的油耗与它的重量呈线性关系。

 

 

一辆汽车的油耗y和它的重量x之间的关系取决于直线的斜率w(油耗随重量上升的陡峭程度)和偏置项b(零重量时的油耗):y=w*x+b。

 

在训练期间,给定汽车的重量,算法预测预期的燃料消耗。它比较了预期和实际的燃料消耗。然后通过最小二乘法,使平方差最小化,从而修正w和b的值。

 

考虑到汽车的阻力,有可能产生更精确的预测。额外的变量将直线延伸到一个平面。通过这种方式,线性回归可以接收任何数量的变量/维度作为输入。

 

线性回归算法在当年可以帮助航海家追踪星星,后来帮助生物学家(特别是查尔斯-达尔文的表弟弗朗西斯-高尔顿)识别植物和动物的遗传性状,进一步的发展释放了线性回归的潜力。

 

1922年,英国统计学家罗纳德-费舍尔和卡尔-皮尔逊展示了线性回归如何融入相关和分布的一般统计框架,再次扩大了其适用范围。

 

近一个世纪后,计算机的出现为其提供了数据和处理能力,使其得到更大的利用。

 

当然,数据从来没有被完美地测量过,而且多个变量之间也存在不同的重要程度,这些事实也刺激了线性回归产生了更复杂的变体。

 

例如,带正则化的线性回归(也称为岭回归)鼓励线性回归模型不要过多地依赖任何一个变量,或者说要均匀地依赖最重要的变量。如果你要追求简化,使用L1的正则化就是lasso回归,最终的系数更稀疏。换句话说,它学会了选择具有高预测能力的变量,而忽略了其他的变量。

 

Elastic net结合了两种类型的正则化,当数据稀少或特征出现关联时,它很有用。

 

神经网络中最常见的一种神经元就是线性回归模型,往往后面再跟着一个非线性激活函数,所以线性回归是深度学习的基本构件。

 

Logistic回归

 

Logistic函数可以追溯到19世纪30年代,当时比利时统计学家P.F. Verhulst发明了该函数来描述人口动态。

 

随着时间的推移,最初的爆炸性指数增长在消耗可用资源时趋于平缓,从而形成了Logistic曲线。

 

 

一个多世纪后,美国统计学家威尔逊(E. B. Wilson)和他的学生简-伍斯特(Jane Worcester)设计了逻辑回归算法,以计算出多少给定的危险物质会致命。

 

Logistic回归将logistic函数拟合到数据集上,以预测在某一事件(例如,摄入马钱子)发生特定结果(例如,过早死亡)的概率。

 

 

1、训练时水平地调整曲线的中心位置,垂直地调整其中间位置,以使函数的输出和数据之间的误差最小。

 

2、将中心向右或向左调整意味着需要更多或更少的毒药来杀死普通人。陡峭的坡度意味着确定性:在中间点之前,大多数人都能活下来;超过中间点,那就说得再见了。一个平缓的斜率更宽容:低于曲线的中间点,超过一半的人可以存活;更远的地方,不到一半。

 

3、设置一个阈值,比如说0.5,曲线就成了一个分类器。只要把剂量输入模型,你就会知道你应该计划一个聚会还是一个葬礼。

 

Verhulst的工作发现了二元结果的概率,后来英国统计学家David Cox和荷兰统计学家Henri Theil在20世纪60年代末独立工作,将逻辑回归法用于有两个以上类别的情况。

 

Logistic函数可以描述多种多样的现象,并具有相当的准确性,因此Logistic回归在许多情况下提供了可用的基线预测。

 

在医学上,它可以估计死亡率和疾病的风险;在政治中,它可以预测选举的赢家和输家;在经济学中,它可以预测商业前景。

 

在神经网络中,有一部分神经元为Logistic回归,其中非线性函数为sigmoid。

 

梯度下降

 

想象一下,在黄昏过后的山区徒步旅行,你会发现除了你的脚以外看不到什么。而你的手机没电了,所以你无法使用GPS应用程序来寻找回家的路。

 

你可能会发现梯度下降的方向是最快路径,只是要小心不要走下悬崖。

 

1847年,法国数学家Augustin-Louis Cauchy发明了近似恒星轨道的算法。60年后,他的同胞雅克-哈达玛德(Jacques Hadamard)独立开发了这一算法,用来描述薄而灵活的物体的变形。

 

不过,在机器学习中,它最常见的用途是找到学习算法损失函数的最低点。

 

神经网络通常是一个函数,给定一个输入,计算出一个期望的输出。

 

训练网络的一种方法是,通过反复计算实际输出和期望输出之间的差异,然后改变网络的参数值来缩小该差异,从而使损失最小化,或其输出中的误差最小。

 

梯度下降缩小了误差,使计算损失的函数最小化。

 

网络的参数值相当于景观上的一个位置,而损失是当前的高度。随着你的下降,你提高了网络的能力,以计算出接近所需的输出。

 

不过可见性是有限的,因为在监督学习下,算法完全依赖于网络的参数值和梯度,也就是当前损失函数的斜率。

 

 

使用梯度下降,你也有可能被困在一个由多个山谷(局部最小值)、山峰(局部最大值)、马鞍(马鞍点)和高原组成的非凸形景观中。事实上,像图像识别、文本生成和语音识别这样的任务都是非凸的,而且已经出现了许多梯度下降的变体来处理这种情况。

 

K-means聚类

 

如果你在派对上与其他人站得很近,那么你们之间很可能有一些共同点。

 

K-means的聚类就是基于这种先验想法,将数据点分为多个group,无论这些group是通过人类机构还是其他力量形成的,这种算法都会找到它们之间的关联。

 

 

美国物理学家斯图尔特-劳埃德(Stuart Lloyd)是贝尔实验室标志性创新工厂和发明原子弹的曼哈顿项目的校友,他在1957年首次提出了k-means聚类,以分配数字信号中的信息,不过他直到1982年才发表。

 

与此同时,美国统计学家爱德华-福吉(Edward Forgy)在1965年描述了一种类似的方法——劳埃德-福吉算法。

 

K-means聚类首先会寻找group的中心,然后将数据点分配到志同道合的group内。考虑到数据量在空间里的位置和要组成的小组数量,k-means聚类可以将与会者分成规模大致相同的小组,每个小组都聚集在一个中心点或中心点周围。

 

在训练过程中,算法最初需要随机选择k个人来指定k个中心点,其中k必须手动选择,而且找到一个最佳的k值并不容易。

 

然后通过将每个人与最接近的中心点联系起来形成k个聚类簇。

 

对于每个聚类簇,它计算所有被分配到该组的人的平均位置,并将平均位置指定为新的中心点。每个新的中心点可能都不是由一个具体的人占据的。

 

在计算出新的中心点后,算法将所有人重新分配到离他们最近的中心点。然后计算新的中心点,调整集群,以此类推,直到中心点(以及它们周围的群体)不再移动。

 

将新人分配到正确的群组很容易,让他们在房间里找到自己的位置,然后寻找最近的中心点。

 

K-means算法的原始形式仍然在多个领域很有用,特别是因为作为一种无监督的算法,它不需要收集潜在的昂贵的标记数据,它的运行速度也越来越快。

 

例如,包括scikit-learn在内的机器学习库都得益于2002年增加的kd-trees,它能极快地分割高维数据。


参考资料:

https://read.deeplearning.ai/the-batch/issue-146/



登录查看更多
0

相关内容

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
199+阅读 · 2020年2月11日
机器学习必备的数学基础有哪些?
人工智能头条
12+阅读 · 2019年10月18日
520 页机器学习笔记!图文并茂可能更适合你
大数据技术
19+阅读 · 2019年10月8日
10本必读的机器学习和数据科学免费在线电子书
大数据技术
30+阅读 · 2018年6月8日
Zero to Hero:2017年机器之心AI高分概述文章全集
机器之心
12+阅读 · 2018年2月16日
学完吴恩达全部深度学习课程,这有一份课程解读
THU数据派
14+阅读 · 2017年10月27日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年7月26日
Max-Margin Contrastive Learning
Arxiv
18+阅读 · 2021年12月21日
Arxiv
19+阅读 · 2018年10月25日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
17+阅读 · 2018年4月2日
Arxiv
151+阅读 · 2017年8月1日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员