Random Forests (RF) are among the state-of-the-art in many machine learning applications. With the ongoing integration of ML models into everyday life, the deployment and continuous application of models becomes more and more an important issue. Hence, small models which offer good predictive performance but use small amounts of memory are required. Ensemble pruning is a standard technique to remove unnecessary classifiers from an ensemble to reduce the overall resource consumption and sometimes even improve the performance of the original ensemble. In this paper, we revisit ensemble pruning in the context of `modernly' trained Random Forests where trees are very large. We show that the improvement effects of pruning diminishes for ensembles of large trees but that pruning has an overall better accuracy-memory trade-off than RF. However, pruning does not offer fine-grained control over this trade-off because it removes entire trees from the ensemble. To further improve the accuracy-memory trade-off we present a simple, yet surprisingly effective algorithm that refines the predictions in the leaf nodes in the forest via stochastic gradient descent. We evaluate our method against 7 state-of-the-art pruning methods and show that our method outperforms the other methods on 11 of 16 datasets with a statistically significant better accuracy-memory trade-off compared to most methods. We conclude our experimental evaluation with a case study showing that our method can be applied in a real-world setting.


翻译:随机森林( RF) 是许多机器学习应用中最先进的。 随着ML 模型不断融入日常生活, 模型的部署和持续应用越来越成为一个重要问题。 因此, 小型模型可以提供良好的预测性表现, 但使用少量的记忆。 集合剪裁是一种标准技术, 将不必要分类器从一个组合中去除, 以减少整个资源消耗, 有时甚至改进原始组合的性能。 在本文中, 我们重新审视在“ 现代” 培训过的随机森林背景下的混合剪裁, 其中树木非常大。 我们显示, 细剪裁对大树组群的改进效果越来越小, 但使用少量的记忆。 集合剪裁是一种标准技术, 将一个不必要分类的分类器从一个组合中剔除, 以减少整个资源消耗量, 有时甚至改善原始组合的性。 本文中, 我们用一个简单、 但令人惊讶的有效算法 。 我们用一种精确的计算法, 改进了我们最精准的实验法 。 我们用一种精确的计算方法, 通过一个精确的实验法, 来修正我们最精确的实验性的方法, 显示我们最精确的 的 的 的 的 结构 的 的 的 的 方法, 以显示我们11 渐变的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 方法 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 方法 方法 方法 方法 方法

0
下载
关闭预览

相关内容

【UAI2021教程】贝叶斯最优学习,65页ppt
专知会员服务
65+阅读 · 2021年8月7日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
51+阅读 · 2021年1月20日
最新《Transformers模型》教程,64页ppt
专知会员服务
314+阅读 · 2020年11月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2019年4月1日
Arxiv
0+阅读 · 2021年12月14日
Arxiv
13+阅读 · 2019年4月9日
Arxiv
5+阅读 · 2018年4月30日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年4月1日
Top
微信扫码咨询专知VIP会员