如何理解模型的过拟合与欠拟合,以及如何解决?

2019 年 4 月 23 日 七月在线实验室

今日面试题

如何理解模型的过拟合与欠拟合,以及如何解决?


解析:

一、欠拟合


训练误差和验证误差都很大,这种情况称为欠拟合。出现欠拟合的原因是模型尚未学习到数据的真实结构。因此,模拟在训练集和验证集上的性能都很差。

解决办法:
1、做特征工程,添加很多的特征项。如果欠拟合是由于特征项不够,没有足够的信息支持模型做判断。

2、增加模型复杂度。如果模型太简单,不能够应对复杂的任务。可以使用更复杂的模型,减小正则化系数。具体来说可以使用核函数,集成学习方法。

3、 集成学习方法boosting(如GBDT)能有效解决high bias

二、过拟合

模型在训练集上表现很好,但是在验证集上却不能保持准确,也就是模型泛化能力很差。这种情况很可能是模型过拟合。

造成原因主要有以下几种:
1、训练数据集样本单一,样本不足。如果训练样本只有负样本,然后那生成的模型去预测正样本,这肯定预测不准。所以训练样本要尽可能的全面,覆盖所有的数据类型。

2、训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。过多的干扰会导致记录了很多噪声特征,忽略了真实输入和输出之间的关系。

3、 模型过于复杂。模型太复杂,已经能够死记硬背记录下了训练数据的信息,但是遇到没有见过的数据的时候不能够变通,泛化能力太差。我们希望模型对不同的模型都有稳定的输出。模型太复杂是过拟合的重要因素。

解决办法:
1、在训练和建立模型的时候,从相对简单的模型开始,不要一开始就把特征做的非常多,模型参数跳的非常复杂。

2、增加样本,要覆盖全部的数据类型。数据经过清洗之后再进行模型训练,防止噪声数据干扰模型。

3、正则化。在模型算法中添加惩罚函数来防止过拟合。常见的有L1,L2正则化。

4 集成学习方法bagging(如随机森林)能有效防止过拟合。

5、减少特征个数(不太推荐)
注意:降维不能解决过拟合。降维只是减小了特征的维度,并没有减小特征所有的信息。



END


今日学习推荐


金融风控实战

首次完整公开一线平台金融风控核心技术


5月11日开课


3人拼团,仅需499元 


扫描下方二维码

了解课程详情


长按识别二维码



知道什么是B树,那你知道什么是R树吗?

什么?互联网人恋爱调查报告,程序员竟成最大赢家?

金融风控面试十二问

一次面试让你知道数据结构与算法对前端的重要性

人工智能人才争抢白热化?学好数学才能C位出道!

哪些机器学习算法不需要做归一化处理?

一文详解:什么是B树?

机器学习中的数学基础(微积分和概率统计)

34个最优秀好用的Python开源框架

【实战分享】电影推荐系统项目实战应用

Python打牢基础,从19个语法开始!


扫描下方二维码  关注:七月在线实验室 


后台回复:100   免费领取【机器学习面试100题】

后台回复:干货 免费领取全体系人工智能学习资料

后台回复: 领资料 【NLP工程师必备干货资料】

▼更多精彩推荐,请关注我们▼
“阅读原文”我们一起进步
在看点一下
登录查看更多
12

相关内容

【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
151+阅读 · 2020年6月27日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
340+阅读 · 2020年3月17日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
129+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
356+阅读 · 2020年2月15日
【新书】Python中的经典计算机科学问题,224页pdf
专知会员服务
145+阅读 · 2019年12月28日
零样本图像分类综述 : 十年进展
专知会员服务
126+阅读 · 2019年11月16日
【深度学习】深度学习的问题究竟在哪?
产业智能官
4+阅读 · 2019年8月30日
如何优化你的图像分类模型效果?
AI研习社
4+阅读 · 2019年5月26日
深度学习训练数据不平衡问题,怎么解决?
AI研习社
7+阅读 · 2018年7月3日
教你简单解决过拟合问题(附公式)
数据派THU
5+阅读 · 2018年2月13日
教程 | 理解XGBoost机器学习模型的决策过程
机器之心
6+阅读 · 2017年12月20日
教程 | 如何判断LSTM模型中的过拟合与欠拟合
机器之心
6+阅读 · 2017年10月2日
解决机器学习问题有通法!看这一篇就够了!
大数据文摘
4+阅读 · 2017年9月18日
Arxiv
8+阅读 · 2019年2月15日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
4+阅读 · 2018年3月30日
Arxiv
4+阅读 · 2018年3月19日
VIP会员
相关VIP内容
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
151+阅读 · 2020年6月27日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
340+阅读 · 2020年3月17日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
129+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
356+阅读 · 2020年2月15日
【新书】Python中的经典计算机科学问题,224页pdf
专知会员服务
145+阅读 · 2019年12月28日
零样本图像分类综述 : 十年进展
专知会员服务
126+阅读 · 2019年11月16日
相关资讯
【深度学习】深度学习的问题究竟在哪?
产业智能官
4+阅读 · 2019年8月30日
如何优化你的图像分类模型效果?
AI研习社
4+阅读 · 2019年5月26日
深度学习训练数据不平衡问题,怎么解决?
AI研习社
7+阅读 · 2018年7月3日
教你简单解决过拟合问题(附公式)
数据派THU
5+阅读 · 2018年2月13日
教程 | 理解XGBoost机器学习模型的决策过程
机器之心
6+阅读 · 2017年12月20日
教程 | 如何判断LSTM模型中的过拟合与欠拟合
机器之心
6+阅读 · 2017年10月2日
解决机器学习问题有通法!看这一篇就够了!
大数据文摘
4+阅读 · 2017年9月18日
相关论文
Top
微信扫码咨询专知VIP会员