今日面试题分享：如何理解模型的过拟合与欠拟合，以及如何解决？

2019 年 3 月 21 日 七月在线实验室

undefined

扫描上方二维码关注：七月在线实验室

后台回复：100 免费领取【机器学习面试100题】PDF版

今日面试题分享

如何理解模型的过拟合与欠拟合，以及如何解决？

参考答案：

解析：

欠拟合（underfiting / high bias）

训练误差和验证误差都很大，这种情况称为欠拟合。出现欠拟合的原因是模型尚未学习到数据的真实结构。因此，模拟在训练集和验证集上的性能都很差。

解决办法

1 做特征工程，添加跟多的特征项。如果欠拟合是由于特征项不够，没有足够的信息支持模型做判断。

2 增加模型复杂度。如果模型太简单，不能够应对复杂的任务。可以使用更复杂的模型，减小正则化系数。具体来说可以使用核函数，集成学习方法。

3 集成学习方法boosting（如GBDT）

能有效解决high bias 过拟合（overfiting / high variance）模型在训练集上表现很好，但是在验证集上却不能保持准确，也就是模型泛化能力很差。这种情况很可能是模型过拟合。

造成原因主要有以下几种：

1 训练数据集样本单一，样本不足。如果训练样本只有负样本，然后那生成的模型去预测正样本，这肯定预测不准。所以训练样本要尽可能的全面，覆盖所有的数据类型。

2 训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。过多的干扰会导致记录了很多噪声特征，忽略了真实输入和输出之间的关系。

3 模型过于复杂。模型太复杂，已经能够死记硬背记录下了训练数据的信息，但是遇到没有见过的数据的时候不能够变通，泛化能力太差。我们希望模型对不同的模型都有稳定的输出。模型太复杂是过拟合的重要因素。

针对过拟合的上述原因，对应的预防和解决办法如下：

1 在训练和建立模型的时候，从相对简单的模型开始，不要一开始就把特征做的非常多，模型参数跳的非常复杂。

2 增加样本，要覆盖全部的数据类型。数据经过清洗之后再进行模型训练，防止噪声数据干扰模型。

3 正则化。在模型算法中添加惩罚函数来防止过拟合。常见的有L1，L2正则化。

4 集成学习方法bagging(如随机森林）能有效防止过拟合

5 减少特征个数(不是太推荐) 注意：降维不能解决过拟合。降维只是减小了特征的维度，并没有减小特征所有的信息。

题目来源：七月在线官网（www.julyedu.com）——面试题库——面试大题——机器学习

今日学习推荐

【PyTorch的入门与实战】

开课时间：2019年3月23日（本周六）

16小时带你实战PyTorch 1.0

四大课程特色八大实战项目

长按识别下方二维码

免费试听

👇

长按识别二维码

●备战AI求职季 | 100道机器学习面试题（上）

●一文详解：什么是B树？

●机器学习中的数学基础（微积分和概率统计）

●一文详解机器学习中最好用的提升方法：Boosting 与 AdaBoost

●34个最优秀好用的Python开源框架

●【实战分享】电影推荐系统项目实战应用

●万字长文概述NLP中的深度学习技术

点

咨询，查看课程，请点击“阅读原文”

「在看的，麻烦点一下再走~ 」

登录查看更多

相关内容

欠拟合

关注 0

【2020新书】监督机器学习，156页pdf，剑桥大学出版社

专知会员服务

153+阅读 · 2020年6月27日

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

专知会员服务

317+阅读 · 2020年5月28日

少标签数据学习，54页ppt

专知会员服务

203+阅读 · 2020年5月22日

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

【干货书】机器学习Python实战教程，366页pdf

专知会员服务

344+阅读 · 2020年3月17日

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

专知会员服务

130+阅读 · 2020年3月15日

【2020新书】如何构建数据团队？:设计集成的技能、需求和解决方案，257页pdf

专知会员服务

115+阅读 · 2020年3月11日

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

Andriy又一力作新书「机器学习工程」，177页pdf带你实战机器学习工程项目

专知会员服务

127+阅读 · 2020年1月15日

【新书】傻瓜式入门深度学习，371页pdf

专知会员服务

192+阅读 · 2019年12月28日

如何理解模型的过拟合与欠拟合，以及如何解决？

七月在线实验室

12+阅读 · 2019年4月23日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

备战AI求职季 | 100道机器学习面试题（上）

七月在线实验室

9+阅读 · 2019年3月16日

今日面试题分享：请问（决策树、Random Forest、Booting、Adaboot）GBDT和XGBoost的区别是什么？

七月在线实验室

11+阅读 · 2019年3月12日

BAT机器学习面试题1000题（376~380题）

七月在线实验室

9+阅读 · 2018年8月27日

深度学习面试100题（第56-60题）

七月在线实验室

9+阅读 · 2018年7月23日

深度学习面试100题（第41-45题）

七月在线实验室

15+阅读 · 2018年7月18日

BAT机器学习面试题1000题（316~320题）

七月在线实验室

14+阅读 · 2018年1月18日

BAT机器学习面试题及解析（266-270题）

七月在线实验室

6+阅读 · 2017年12月13日

BAT机器学习面试1000题系列（第116~120题）

七月在线实验室

16+阅读 · 2017年10月24日

Multi-Stage Document Ranking with BERT

Arxiv

5+阅读 · 2019年10月31日

Knowledge Aware Conversation Generation with Explainable Reasoning over Augmented Graphs

Arxiv

3+阅读 · 2019年9月3日

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

Adaptive Neural Trees

Arxiv

4+阅读 · 2018年12月10日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Reducing Parameter Space for Neural Network Training

Arxiv

3+阅读 · 2018年8月17日

W-net: Bridged U-net for 2D Medical Image Segmentation

Arxiv

20+阅读 · 2018年7月12日

Learning to Extract Coherent Summary via Deep Reinforcement Learning

Arxiv

6+阅读 · 2018年4月19日

Learning Region Features for Object Detection

Arxiv

4+阅读 · 2018年3月19日

SpectralLeader: Online Spectral Learning for Single Topic Models

Arxiv

4+阅读 · 2018年2月16日

VIP会员

今日面试题分享：如何理解模型的过拟合与欠拟合，以及如何解决？

16小时带你实战PyTorch 1.0

四大课程特色 八大实战项目

相关内容

四大课程特色八大实战项目