一个完整的端到端机器学习项目

2018 年 11 月 22 日 AINLP

作者:Baymax

(https://github.com/DeqianBai) 

目前是一名在读研究生,研究方向是机器学习和强化学习;该项目地址,可点击“阅读原文”直达:


https://github.com/DeqianBai/Your-first-machine-learning-Project---End-to-End-in-Python


这是一个完整的,端到端的机器学习项目,非常适合有一定基础后拿来练习,以提高对完整机器学习项目的认识。


Your-first-machine-learning-Project---End-to-End-in-Python

目标:

  • 使用提供的建筑能源数据开发一个模型,该模型可以预测建筑物的能源之星得分,

  • 然后解释结果以找到最能预测得分的变量。

介绍:

这是一个受监督的回归机器学习任务:给定一组包含目标(在本例中为分数)的数据,我们希望训练一个可以学习将特征(也称为解释变量)映射到目标的模型。

  • 受监督问题: 我们可以知道数据的特征和目标,我们的目标是训练可以学习两者之间映射关系的模型。

  • 回归问题: Energy Star Score是一个连续变量。

在训练中,我们希望模型能够学习特征和分数之间的关系,因此我们给出了特征和答案。然后,为了测试模型的学习效果,我们在一个从未见过答案的测试集上进行评估

收获

  • 数据清理,探索性数据分析,特征工程和选择等常见问题的解决办法

  • 随机搜索,网格搜索,交叉验证等方法寻找最优超参数

  • 可视化决策树

  • 对完整的机器学习项目流程建立一个宏观的了解

目录

1. 数据清理和格式化

1.1 加载并检查数据

1.2 数据类型和缺失值

1.2.1 将数据转换为正确的类型

1.3 处理缺失值

2. 探索性数据分析

2.1 单变量图

2.2 去除异常值

2.3 寻找关系

2.4 特征与目标之间的相关性

2.5 双变量图(Two-Variable Plots)

2.5.1 Pairs Plot

3. 特征工程和选择

3.1 特征工程

3.2 特征选择(去除共线特征)

3.3 划分训练集和测试集

3.4 建立Baseline

4. 基于性能指标比较几种机器学习模型

4.1 输入缺失值

4.2 特征缩放

4.3 - 需要评估的模型

5. 对最佳模型执行超参数调整,即优化模型

5.1 超参数

5.2 使用随机搜索和交叉验证进行超参数调整

6. 在测试集上评估最佳模型

7. 解释模型结果

7.1 特征重要性 - Feature Importances

7.2 使用特征重要性进行特征选择

7.3 本地可解释的与模型无关的解释- Locally Interpretable Model-agnostic Explanations (LIME)

7.4 检查单个决策树

8.得出结论&&记录发现

8.1 得出结论

8.2 记录发现

联系我

baideqian@hrbeu.edu.cn

baideqian@foxmail.com


登录查看更多
1

相关内容

【经典书】机器学习高斯过程,266页pdf
专知会员服务
195+阅读 · 2020年5月2日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
129+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
198+阅读 · 2020年2月11日
专知会员服务
115+阅读 · 2019年12月24日
赶紧收藏!西瓜书《机器学习》完整笔记来了
大数据技术
29+阅读 · 2019年8月24日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
Python & 机器学习之项目实践 | 赠书
人工智能头条
14+阅读 · 2017年12月26日
BAT题库 | 机器学习面试1000题系列(第211~215题)
七月在线实验室
9+阅读 · 2017年11月22日
解决机器学习问题有通法!看这一篇就够了!
大数据文摘
4+阅读 · 2017年9月18日
Arxiv
12+阅读 · 2019年2月26日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年9月11日
Arxiv
4+阅读 · 2018年3月19日
VIP会员
相关资讯
赶紧收藏!西瓜书《机器学习》完整笔记来了
大数据技术
29+阅读 · 2019年8月24日
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
Python & 机器学习之项目实践 | 赠书
人工智能头条
14+阅读 · 2017年12月26日
BAT题库 | 机器学习面试1000题系列(第211~215题)
七月在线实验室
9+阅读 · 2017年11月22日
解决机器学习问题有通法!看这一篇就够了!
大数据文摘
4+阅读 · 2017年9月18日
Top
微信扫码咨询专知VIP会员