xgboost特征选择

2017 年 10 月 5 日 数据挖掘入门与实战 要学习更多点这→



大数据挖掘DT数据分析  公众号: datadw


Xgboost在各大数据挖掘比赛中是一个大杀器,往往可以取得比其他各种机器学习算法更好的效果。数据预处理,特征工程,调参对Xgboost的效果有着非常重要的影响。这里介绍一下运用xgboost的特征选择,运用xgboost的特征选择可以筛选出更加有效的特征代入Xgboost模型。


这里采用的数据集来自于Kaggle | Allstate Claims Severity比赛,

https://www.kaggle.com/c/allstate-claims-severity/data


这里的训练集如下所示,有116个离散特征(cat1-cat116),14个连续特征(cont1 -cont14),离散特征用字符串表示,先要对其进行数值化:



  1.    id cat1 cat2 cat3 cat4 cat5 cat6 cat7 cat8 cat9   ...        cont6  \  

  2. 0   1    A    B    A    B    A    A    A    A    B   ...     0.718367     

  3. 1   2    A    B    A    A    A    A    A    A    B   ...     0.438917     

  4. 2   5    A    B    A    A    B    A    A    A    B   ...     0.289648     

  5. 3  10    B    B    A    B    A    A    A    A    B   ...     0.440945     

  6. 4  11    A    B    A    B    A    A    A    A    B   ...     0.178193     

  7.   

  8.       cont7    cont8    cont9   cont10    cont11    cont12    cont13  \  

  9. 0  0.335060  0.30260  0.67135  0.83510  0.569745  0.594646  0.822493     

  10. 1  0.436585  0.60087  0.35127  0.43919  0.338312  0.366307  0.611431     

  11. 2  0.315545  0.27320  0.26076  0.32446  0.381398  0.373424  0.195709     

  12. 3  0.391128  0.31796  0.32128  0.44467  0.327915  0.321570  0.605077     

  13. 4  0.247408  0.24564  0.22089  0.21230  0.204687  0.202213  0.246011  



xgboost的特征选择的代码如下: 



http://blog.csdn.net/qq_34264472/article/details/53363384


人工智能大数据与深度学习

搜索添加微信公众号:weic2c


长按图片,识别二维码,点关注



大数据挖掘DT数据分析

搜索添加微信公众号:datadw


教你机器学习,教你数据挖掘


长按图片,识别二维码,点关注

登录查看更多
39

相关内容

xgboost的全称是eXtreme Gradient Boosting,它是Gradient Boosting Machine的一个C++实现,并能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
404+阅读 · 2020年6月8日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
288+阅读 · 2020年6月3日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
356+阅读 · 2020年2月15日
今日面试题分享:为什么xgboost要用泰勒展开,优势在哪里?
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
文本挖掘中特征选择(附python实现)
七月在线实验室
4+阅读 · 2018年5月22日
RF、GBDT、XGBoost面试级整理
数据挖掘入门与实战
17+阅读 · 2018年3月21日
Xgboost算法——Kaggle案例
R语言中文社区
13+阅读 · 2018年3月13日
RF(随机森林)、GBDT、XGBoost面试级整理
数据挖掘入门与实战
7+阅读 · 2018年2月6日
特征选择算法在微博业务应用中的演进历程
CSDN云计算
5+阅读 · 2017年12月22日
为什么『无监督集成学习』乏人问津?
AI研习社
10+阅读 · 2017年10月24日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
Arxiv
7+阅读 · 2020年3月1日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Learning to Importance Sample in Primary Sample Space
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
VIP会员
相关资讯
今日面试题分享:为什么xgboost要用泰勒展开,优势在哪里?
Python中机器学习的特征选择工具
云栖社区
8+阅读 · 2018年7月16日
文本挖掘中特征选择(附python实现)
七月在线实验室
4+阅读 · 2018年5月22日
RF、GBDT、XGBoost面试级整理
数据挖掘入门与实战
17+阅读 · 2018年3月21日
Xgboost算法——Kaggle案例
R语言中文社区
13+阅读 · 2018年3月13日
RF(随机森林)、GBDT、XGBoost面试级整理
数据挖掘入门与实战
7+阅读 · 2018年2月6日
特征选择算法在微博业务应用中的演进历程
CSDN云计算
5+阅读 · 2017年12月22日
为什么『无监督集成学习』乏人问津?
AI研习社
10+阅读 · 2017年10月24日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
Top
微信扫码咨询专知VIP会员