Decision trees are widely-used classification and regression models because of their interpretability and good accuracy. Classical methods such as CART are based on greedy approaches but a growing attention has recently been devoted to optimal decision trees. We investigate the nonlinear continuous optimization formulation proposed in Blanquero et al. (EJOR, vol. 284, 2020; COR, vol. 132, 2021) for (sparse) optimal randomized classification trees. Sparsity is important not only for feature selection but also to improve interpretability. We first consider alternative methods to sparsify such trees based on concave approximations of the $l_{0}$ ``norm". Promising results are obtained on 24 datasets in comparison with $l_1$ and $l_{\infty}$ regularizations. Then, we derive bounds on the VC dimension of multivariate randomized classification trees. Finally, since training is computationally challenging for large datasets, we propose a general decomposition scheme and an efficient version of it. Experiments on larger datasets show that the proposed decomposition method is able to significantly reduce the training times without compromising the accuracy.


翻译:决策树是广泛使用的分类和回归模型,因为其可解释性和准确性很高。古典方法,如CART(CART)基于贪婪的方法,但最近越来越关注最佳决策树。我们调查了Blanquero等人(EJOR,第284卷,2020年;COR,第132卷,2021号)为(粗)最佳随机分类树提出的非线性连续优化配方(EJOR,第132卷,2021号),不仅对于特性选择很重要,而且对于改进可解释性也十分重要。我们首先考虑根据“规范”$+0美元近似值对此类树木进行再加固的替代方法。我们从24个数据集中获得了有希望的结果,与$_1美元和$lüinfty}值的正规化。然后,我们从多变量随机分类树的VC方面得出了界限。最后,由于对大型数据集的计算具有挑战性,我们建议了一个一般解析方案,并采用高效的版本。关于较大数据集的实验显示,拟议的解剖法能够大大降低培训时间而不损害准确性。

0
下载
关闭预览

相关内容

专知会员服务
75+阅读 · 2021年3月16日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
47+阅读 · 2021年1月20日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
158+阅读 · 2020年1月16日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Preferential Sampling for Bivariate Spatial Data
Arxiv
0+阅读 · 2022年2月18日
On Variance Estimation of Random Forests
Arxiv
0+阅读 · 2022年2月18日
Arxiv
0+阅读 · 2022年2月16日
Arxiv
0+阅读 · 2022年2月16日
Arxiv
9+阅读 · 2021年3月8日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Preferential Sampling for Bivariate Spatial Data
Arxiv
0+阅读 · 2022年2月18日
On Variance Estimation of Random Forests
Arxiv
0+阅读 · 2022年2月18日
Arxiv
0+阅读 · 2022年2月16日
Arxiv
0+阅读 · 2022年2月16日
Arxiv
9+阅读 · 2021年3月8日
Arxiv
5+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员