xgboost特征选择

2017 年 10 月 5 日 数据挖掘入门与实战 要学习更多点这→

大数据挖掘DT数据分析公众号： datadw

Xgboost在各大数据挖掘比赛中是一个大杀器，往往可以取得比其他各种机器学习算法更好的效果。数据预处理，特征工程，调参对Xgboost的效果有着非常重要的影响。这里介绍一下运用xgboost的特征选择，运用xgboost的特征选择可以筛选出更加有效的特征代入Xgboost模型。

这里采用的数据集来自于Kaggle | Allstate Claims Severity比赛，

https://www.kaggle.com/c/allstate-claims-severity/data

这里的训练集如下所示，有116个离散特征（cat1-cat116）,14个连续特征（cont1 -cont14），离散特征用字符串表示，先要对其进行数值化：

id cat1 cat2 cat3 cat4 cat5 cat6 cat7 cat8 cat9 ... cont6 \
0 1 A B A B A A A A B ... 0.718367
1 2 A B A A A A A A B ... 0.438917
2 5 A B A A B A A A B ... 0.289648
3 10 B B A B A A A A B ... 0.440945
4 11 A B A B A A A A B ... 0.178193
cont7 cont8 cont9 cont10 cont11 cont12 cont13 \
0 0.335060 0.30260 0.67135 0.83510 0.569745 0.594646 0.822493
1 0.436585 0.60087 0.35127 0.43919 0.338312 0.366307 0.611431
2 0.315545 0.27320 0.26076 0.32446 0.381398 0.373424 0.195709
3 0.391128 0.31796 0.32128 0.44467 0.327915 0.321570 0.605077
4 0.247408 0.24564 0.22089 0.21230 0.204687 0.202213 0.246011

xgboost的特征选择的代码如下：

http://blog.csdn.net/qq_34264472/article/details/53363384

人工智能大数据与深度学习

搜索添加微信公众号：weic2c

长按图片，识别二维码，点关注

大数据挖掘DT数据分析

搜索添加微信公众号：datadw

教你机器学习，教你数据挖掘

长按图片，识别二维码，点关注

登录查看更多

相关内容

xgboost

关注 12

xgboost的全称是eXtreme Gradient Boosting，它是Gradient Boosting Machine的一个C++实现，并能够自动利用CPU的多线程进行并行，同时在算法上加以改进提高了精度。

【开放书-纽约大学】面向数据科学的概率与统计，237页pdf

专知会员服务

149+阅读 · 2020年7月6日

超越深度学习：梯度提升机Gradient Boosting Machines (GBM)，73页ppt

专知会员服务

52+阅读 · 2020年6月21日

【2020新书】现代数据挖掘算法C++和CUDA，233页pdf，数据科学的特征提取和选择算法的最新发展

专知会员服务

75+阅读 · 2020年6月11日

【经典书】机器学习：贝叶斯和优化方法，1075页pdf

专知会员服务

413+阅读 · 2020年6月8日

【干货书】用于概率、统计和机器学习的Python，288页pdf

专知会员服务

291+阅读 · 2020年6月3日

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

【干货】面向机器学习和数据分析的特征工程，附新书419页pdf

专知会员服务

157+阅读 · 2019年11月26日

【课程】Geoffrey Hinton《神经网络机器学习》经典课程，附课程PPT下载

专知会员服务

46+阅读 · 2019年11月4日

面向机器学习和数据分析的特征工程（Feature Engineering for Machine Learning and Data Analytics），附新书419页pdf

专知会员服务

62+阅读 · 2019年10月26日

面向机器学习和数据分析的特征工程，附新书419页pdf

专知

93+阅读 · 2019年10月5日

今日面试题分享：为什么xgboost要用泰勒展开，优势在哪里？

七月在线实验室

22+阅读 · 2019年3月13日

Python中机器学习的特征选择工具

云栖社区

8+阅读 · 2018年7月16日

文本挖掘中特征选择（附python实现）

七月在线实验室

4+阅读 · 2018年5月22日

RF、GBDT、XGBoost面试级整理

数据挖掘入门与实战

17+阅读 · 2018年3月21日

Xgboost算法——Kaggle案例

R语言中文社区

13+阅读 · 2018年3月13日

RF(随机森林)、GBDT、XGBoost面试级整理

数据挖掘入门与实战

7+阅读 · 2018年2月6日

特征选择算法在微博业务应用中的演进历程

CSDN云计算

5+阅读 · 2017年12月22日

为什么『无监督集成学习』乏人问津？

AI研习社

10+阅读 · 2017年10月24日

特征工程的特征理解（一）

机器学习研究会

10+阅读 · 2017年10月23日

A Baseline for Few-Shot Image Classification

Arxiv

7+阅读 · 2020年3月1日

A XGBoost risk model via feature selection and Bayesian hyper-parameter optimization

Arxiv

5+阅读 · 2019年1月24日

Panoptic Feature Pyramid Networks

Arxiv

3+阅读 · 2019年1月8日

Adaptive Neural Trees

Arxiv

4+阅读 · 2018年12月10日

ML-Net: multi-label classification of biomedical texts with deep neural networks

Arxiv

7+阅读 · 2018年11月15日

Multiple Object Tracking in Urban Traffic Scenes with a Multiclass Object Detector

Arxiv

4+阅读 · 2018年9月6日

Learning to Importance Sample in Primary Sample Space

Arxiv

5+阅读 · 2018年8月23日

Feature Selection Library (MATLAB Toolbox)

Arxiv

7+阅读 · 2018年8月6日

Recurrent Residual Convolutional Neural Network based on U-Net (R2U-Net) for Medical Image Segmentation

Arxiv

16+阅读 · 2018年5月10日

Subset Labeled LDA for Large-Scale Multi-Label Classification

Arxiv

3+阅读 · 2017年9月16日

VIP会员