考虑到用户数据删除请求、删除噪声的示例或删除损坏的训练数据,这只是希望从机器学习(ML)模型中删除实例的几个原因。然而,从ML模型中有效地删除这些数据通常是困难的。在本文中,我们引入了数据移除(DaRE)森林,这是随机森林的一种变体,可以在最少的再训练的情况下删除训练数据。森林中每棵DaRE树的模型更新都是精确的,这意味着从DaRE模型中删除实例产生的模型与对更新后的数据进行从头再训练完全相同。

DaRE树利用随机性和缓存来高效删除数据。DaRE树的上层使用随机节点,它均匀随机地选择分割属性和阈值。这些节点很少需要更新,因为它们对数据的依赖性很小。在较低的层次上,选择分割是为了贪婪地优化分割标准,如基尼指数或互信息。DaRE树在每个节点上缓存统计信息,在每个叶子上缓存训练数据,这样当数据被删除时,只更新必要的子树。对于数值属性,贪婪节点在阈值的随机子集上进行优化,以便在逼近最优阈值的同时保持统计量。通过调整贪婪节点的阈值数量和随机节点的数量,DaRE树可以在更准确的预测和更有效的更新之间进行权衡。

在13个真实数据集和一个合成数据集上的实验中,我们发现DaRE森林删除数据的速度比从头开始训练的速度快几个数量级,同时几乎不牺牲预测能力。

https://icml.cc/Conferences/2021/Schedule?showEvent=10523

成为VIP会员查看完整内容
21

相关内容

随机森林 指的是利用多棵树对样本进行训练并预测的一种分类器。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
22+阅读 · 2021年10月8日
专知会员服务
25+阅读 · 2021年9月25日
专知会员服务
17+阅读 · 2021年9月17日
专知会员服务
19+阅读 · 2021年9月4日
专知会员服务
17+阅读 · 2021年7月13日
专知会员服务
26+阅读 · 2021年3月7日
专知会员服务
29+阅读 · 2020年10月24日
专知会员服务
30+阅读 · 2020年9月18日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
28+阅读 · 2020年5月25日
已删除
将门创投
6+阅读 · 2019年1月11日
如何训练你的ResNet(三):正则化
论智
5+阅读 · 2018年11月13日
从零开始深度学习:dropout与正则化
数萃大数据
7+阅读 · 2018年7月22日
如何改进梯度下降算法
论智
9+阅读 · 2018年4月19日
教程 | 如何判断LSTM模型中的过拟合与欠拟合
机器之心
6+阅读 · 2017年10月2日
Arxiv
0+阅读 · 2021年10月7日
Arxiv
0+阅读 · 2021年10月6日
Arxiv
0+阅读 · 2021年10月5日
Arxiv
0+阅读 · 2021年10月2日
VIP会员
相关VIP内容
专知会员服务
22+阅读 · 2021年10月8日
专知会员服务
25+阅读 · 2021年9月25日
专知会员服务
17+阅读 · 2021年9月17日
专知会员服务
19+阅读 · 2021年9月4日
专知会员服务
17+阅读 · 2021年7月13日
专知会员服务
26+阅读 · 2021年3月7日
专知会员服务
29+阅读 · 2020年10月24日
专知会员服务
30+阅读 · 2020年9月18日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
28+阅读 · 2020年5月25日
相关资讯
已删除
将门创投
6+阅读 · 2019年1月11日
如何训练你的ResNet(三):正则化
论智
5+阅读 · 2018年11月13日
从零开始深度学习:dropout与正则化
数萃大数据
7+阅读 · 2018年7月22日
如何改进梯度下降算法
论智
9+阅读 · 2018年4月19日
教程 | 如何判断LSTM模型中的过拟合与欠拟合
机器之心
6+阅读 · 2017年10月2日
微信扫码咨询专知VIP会员