【重温经典】吴恩达机器学习课程学习笔记九:过拟合

【导读】前一段时间,专知内容组推出了春节充电系列:李宏毅2017机器学习课程学习笔记,反响热烈,由此可见,大家对人工智能、机器学习的系列课程非常感兴趣,近期,专知内容组推出吴恩达老师的机器学习课程笔记系列,重温机器学习经典课程,希望大家会喜欢。


【重温经典】吴恩达机器学习课程学习笔记一:监督学习

【重温经典】吴恩达机器学习课程学习笔记二:无监督学习(unsupervised learning)

【重温经典】吴恩达机器学习课程学习笔记三:监督学习模型以及代价函数的介绍

【重温经典】吴恩达机器学习课程学习笔记四:梯度下降

【重温经典】吴恩达机器学习课程学习笔记五:多元梯度下降

【重温经典】吴恩达机器学习课程学习笔记六:特征处理与多项式拟合

【重温经典】吴恩达机器学习课程学习笔记七:Logistic回归


吴恩达机器学习课程系列视频链接

http://study.163.com/course/courseMain.htm?courseId=1004570029


春节充电系列:李宏毅2017机器学习课程学习全部笔记


吴恩达课程学习笔记九:过拟合


1、过拟合的概念(overfitting)




之前总结的线性回归或者逻辑回归等问题,有时用在某特定场合时可能会出现过拟合的现象。什么是过拟合(overfitting)?

我们依然考虑的是房子size与price之间的关系,如上左图,我们用直线去拟合price与size之间的关系,但是从图中可以看出,随着size的增长,price变得平缓,所以用直线拟合并不是很好的选择,这里我们称其为underfitting(欠拟合),对于中间的图加上二次项进行拟合,直观上效果不错,而对于最右边的图,我们用四次项式去拟合,图中一共五个数据,这样得到的图是上下波动的,虽然它充分利用了给定的数据,但是很明显上下波动并不是很好的一个预测函数。


右图的拟合方式就出现了过拟合现象,或者说是高方差(high variance)(也就是拟合的函数太过庞大,变量太多,我们没有足够的数据约束这些变量,以得到一个很好的预测函数)。恰当的拟合我们称之为just right,如上中间的二次拟合。


当拟合函数变量过多时,拟合函数很好的拟合了训练数据,以至于使得代价函数几乎为0,由于函数太过于在意对训练数据的拟合,从而对新的数据没有很好的预测能力。(generalize指的就是模型应用到新样本上的能力,而新样本指的是没有在训练集中出现的房子)。


上面的例子说的是线性拟合时过拟合的情况,对于逻辑回归也存在过拟合:

如上图所示:g代表logistic function,对于左图,g函数的对象是一次函数,这样去拟合的结果将是欠拟合的,用中间的图进行拟合,即加上了几个二次项,这样的拟合效果可能是最好的。而对于右边的图,我们加了很多次项式去拟合,又图中可以看出拟合曲线即近扭曲从而拟合上训练集上的所有数据。当然这样也就出现了过拟合的现象,过拟合后的模型没法 对新样本进行准确的预测。


后面的笔记中会介绍如何用特定的工具去判断一个模型是否发生了过拟合或者欠拟合。那么发生过拟合需要怎么做呢?


对于前面举例的简单一维或者两维的情况(即特征种类很少)下,我们可以在图上绘制过拟合的曲线从而决定如何设置拟合函数的次项。但是实际问题中,决定label种类的特征会有很多,并不能很方便得到数据集的可视化表示。如果有较多的特征但只有少量的数据,那么就可能会发生过拟合的情况。


解决过拟合的方法有如下:

1、 减少特征种类的数量,但是较少了特征种类,也就丢失了一些关于label的信息,不利于拟合。


2、 正则化,可能每个特征对label都会有影响。但是对最终label结果的影响不同,所以我们可以较少特征量级或者θ的大小。

关于正则化的知识在后面的总结中会给出。


参考链接:

http://study.163.com/course/courseMain.htm?courseId=1004570029

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“NGML2018” 就可以获取 吴恩达机器学习课程下载链接~


-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流!加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

投稿&广告&商务合作:fangquanyi@gmail.com


点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员