Decision trees with binary splits are popularly constructed using Classification and Regression Trees (CART) methodology. For regression models, this approach recursively divides the data into two near-homogenous daughter nodes according to a split point that maximizes the reduction in sum of squares error (the impurity) along a particular variable. This paper aims to study the statistical properties of regression trees constructed with CART methodology. In doing so, we find that the training error is governed by the Pearson correlation between the optimal decision stump and response data in each node, which we bound by constructing a prior distribution on the split points and solving a nonlinear optimization problem. We leverage this connection between the training error and Pearson correlation to show that CART with cost-complexity pruning achieves an optimal complexity/goodness-of-fit tradeoff when the depth scales with the logarithm of the sample size. Data dependent quantities, which adapt to the dimensionality and latent structure of the regression model, are seen to govern the rates of convergence of the prediction error.


翻译:使用分类和递减树( CART) 方法来构造带有二进制分解的决策树。 对于回归模型, 这种方法会根据一个分点, 最大限度地减少某变量的平方差错( 杂质) 的总和。 本文旨在研究使用 CART 方法构造的回归树的统计属性。 这样, 我们发现培训错误受每个节点的最佳决定立方和响应数据之间的皮尔逊相关关系制约, 我们通过在分割点上建立先前分布点和解决非线性优化问题来约束这些数据。 我们利用培训错误和Pearson相关联系来显示, 成本- 相容性调整的 CART 达到最佳的复杂度/ 良好性交易。 与样本大小对数的深度尺度相比, 取决于数据的数量, 与回归模型的尺寸和潜在结构相适应, 可以调节预测错误的趋同率 。

0
下载
关闭预览

相关内容

最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
86+阅读 · 2020年12月2日
【干货书】机器学习速查手册,135页pdf
专知会员服务
124+阅读 · 2020年11月20日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
149+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Machine Learning:十大机器学习算法
开源中国
20+阅读 · 2018年3月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
0+阅读 · 2021年1月8日
Arxiv
4+阅读 · 2020年1月17日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
6+阅读 · 2018年12月10日
Arxiv
19+阅读 · 2018年10月25日
Learning to Importance Sample in Primary Sample Space
Few Shot Learning with Simplex
Arxiv
5+阅读 · 2018年7月27日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Machine Learning:十大机器学习算法
开源中国
20+阅读 · 2018年3月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Arxiv
0+阅读 · 2021年1月8日
Arxiv
4+阅读 · 2020年1月17日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
6+阅读 · 2018年12月10日
Arxiv
19+阅读 · 2018年10月25日
Learning to Importance Sample in Primary Sample Space
Few Shot Learning with Simplex
Arxiv
5+阅读 · 2018年7月27日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
3+阅读 · 2016年2月24日
Top
微信扫码咨询专知VIP会员