“过拟合”的严格定义是什么?

“过拟合“的严格的数学定义是什么(如果有的话)?我们如何客观地判断一个模型是不是“过拟合”了?形如"An overfitted model is a …
关注者
299
被浏览
33,346
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

目前似乎还没有“严格”且“被广为接受的”定义。


一般情况下,overfit说的是在training上结果太好,而test上结果不好的这种现象。

发生这种现象的原因有很多,其中最为重要的一条就是参数过多!

举一个并不严格的fit例子,给定任意有限个样本点,我们一定可以利用拉格朗日插值,使得所fit的函数可以通过所有training points,这样来一来,无论你以什么指标去评价这个fit,都是完美的,比如Mean Square Error这种肯定是0呀!可是这个test集合里面的结果好坏那可不一定了哦!

这样fit的本质是用一个多项式的fit,即用一个参数待定的高阶多项式(直接让阶数=样本点个数),则参数的个数等于样本点数。。。这样当样本非常大的时候,参数的个数也是相同的非常大!

所以个人其实蛮认同上面的表述的:

An overfitted modelis a statistical model contains more parameters than can be justified by the data

即模型参数过多,因而导致过拟合!这样的表述下,其实模型参数过多是过拟合的充分条件。