Gradient Boosting Machines (GBM) are among the go-to algorithms on tabular data, which produce state of the art results in many prediction tasks. Despite its popularity, the GBM framework suffers from a fundamental flaw in its base learners. Specifically, most implementations utilize decision trees that are typically biased towards categorical variables with large cardinalities. The effect of this bias was extensively studied over the years, mostly in terms of predictive performance. In this work, we extend the scope and study the effect of biased base learners on GBM feature importance (FI) measures. We show that although these implementation demonstrate highly competitive predictive performance, they still, surprisingly, suffer from bias in FI. By utilizing cross-validated (CV) unbiased base learners, we fix this flaw at a relatively low computational cost. We demonstrate the suggested framework in a variety of synthetic and real-world setups, showing a significant improvement in all GBM FI measures while maintaining relatively the same level of prediction accuracy.


翻译:在表格数据上,渐进推力机(GBM)是算法的一部分,它产生许多预测任务的最新结果。尽管它受到欢迎,但GBM框架在基础学习者中存在着根本性缺陷。具体地说,大多数执行过程都使用典型偏向于绝对变量且具有巨大基本特征的决策树。多年来,这种偏差的影响得到了广泛的研究,主要是预测性能方面的研究。在这项工作中,我们扩大了有偏见的基础学习者对GBM特征重要性(FI)措施的影响的范围并进行了研究。我们表明,尽管这些实施过程显示出高度竞争性的预测性能,但令人惊讶的是,在FI中仍然存在着偏见。我们利用交叉有效的(CV)不带偏见的基础学习者,用相对较低的计算成本来修正这一缺陷。我们在各种合成和现实世界设置中展示了所建议的框架,表明所有GBM FI措施都有很大改进,同时保持了相对相同的预测准确度。

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
RF、GBDT、XGBoost面试级整理
数据挖掘入门与实战
17+阅读 · 2018年3月21日
RF(随机森林)、GBDT、XGBoost面试级整理
数据挖掘入门与实战
7+阅读 · 2018年2月6日
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
xgboost特征选择
数据挖掘入门与实战
39+阅读 · 2017年10月5日
Arxiv
7+阅读 · 2021年5月25日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
RF、GBDT、XGBoost面试级整理
数据挖掘入门与实战
17+阅读 · 2018年3月21日
RF(随机森林)、GBDT、XGBoost面试级整理
数据挖掘入门与实战
7+阅读 · 2018年2月6日
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
xgboost特征选择
数据挖掘入门与实战
39+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员