Random forests are a popular method for classification and regression due to their versatility. However, this flexibility can come at the cost of user privacy, since training random forests requires multiple data queries, often on small, identifiable subsets of the training data. Privatizing these queries typically comes at a high utility cost, in large part because we are privatizing queries on small subsets of the data, which are easily corrupted by added noise. In this paper, we propose DiPriMe forests, a novel tree-based ensemble method for differentially private regression and classification, which is appropriate for real or categorical covariates. We generate splits using a differentially private version of the median, which encourages balanced leaf nodes. By avoiding low occupancy leaf nodes, we avoid high signal-to-noise ratios when privatizing the leaf node sufficient statistics. We show theoretically and empirically that the resulting algorithm exhibits high utility, while ensuring differential privacy.


翻译:随机森林因其多功能性而是一种常用的分类和回归方法。然而,这种灵活性可能以用户隐私为代价,因为培训随机森林需要多种数据查询,往往对培训数据中小的、可识别的子集进行数据查询。 将这些查询私有化通常需要很高的水电费,这在很大程度上是因为我们正在将关于数据中小子集的查询私有化,这些数据很容易因增加的噪音而腐蚀。在本文中,我们提议Diprime森林,这是一种基于树的新型的、以差异为基础的私人回归和分类共通方法,适合真实或绝对的共变式。我们利用中位的有差异的私人版本产生分裂,这鼓励平衡的叶节点。通过避免低占用叶节点,我们避免在将叶节私有化时出现高信号到噪音比率。我们从理论上和从经验上表明,由此产生的算法具有很高的效用,同时确保不同的隐私。

0
下载
关闭预览

相关内容

最新《机器学习数学基础》书册,109页pdf
专知会员服务
80+阅读 · 2021年2月7日
专知会员服务
44+阅读 · 2020年12月18日
专知会员服务
51+阅读 · 2020年12月14日
时空序列预测方法综述
专知会员服务
169+阅读 · 2020年10月18日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
学习自然语言处理路线图
专知会员服务
139+阅读 · 2019年9月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Does Data Augmentation Benefit from Split BatchNorms
Arxiv
3+阅读 · 2020年10月15日
Arxiv
3+阅读 · 2018年10月18日
VIP会员
相关VIP内容
最新《机器学习数学基础》书册,109页pdf
专知会员服务
80+阅读 · 2021年2月7日
专知会员服务
44+阅读 · 2020年12月18日
专知会员服务
51+阅读 · 2020年12月14日
时空序列预测方法综述
专知会员服务
169+阅读 · 2020年10月18日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
学习自然语言处理路线图
专知会员服务
139+阅读 · 2019年9月24日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员