Privacy-preserving data analysis is emerging as a challenging problem with far-reaching impact. In particular, synthetic data are a promising concept toward solving the aporetic conflict between data privacy and data sharing. Yet, it is known that accurately generating private, synthetic data of certain kinds is NP-hard. We develop a statistical framework for differentially private synthetic data, which enables us to circumvent the computational hardness of the problem. We consider the true data as a random sample drawn from a population Omega according to some unknown density. We then replace Omega by a much smaller random subset Omega^*, which we sample according to some known density. We generate synthetic data on the reduced space Omega^* by fitting the specified linear statistics obtained from the true data. To ensure privacy we use the common Laplacian mechanism. Employing the concept of Renyi condition number, which measures how well the sampling distribution is correlated with the population distribution, we derive explicit bounds on the privacy and accuracy provided by the proposed method.


翻译:保护隐私的数据分析正在成为一个具有挑战性且影响深远的问题。 特别是,合成数据是解决数据隐私和数据共享之间极端冲突的一个大有希望的概念。 然而,众所周知,准确生成某些种类的私人合成数据是很硬的。 我们为差别化的私人合成数据开发了一个统计框架,这使我们能够绕过问题的计算难度。 我们认为真实数据是根据某些未知密度从Omega人口中随机抽取的样本。 然后我们用一个小得多的随机子集Omega ⁇ 取代Omega。 我们根据某些已知密度进行取样。 我们通过匹配从真实数据中获得的指定线性统计数据来生成关于缩小空间的合成数据 Omega ⁇ 。 为确保隐私,我们使用共同的 Laplacecian 机制。 使用Renyi 条件编号的概念,用以衡量抽样分布与人口分布的关联程度。 我们从拟议方法提供的隐私和准确性上得出明确的界限。

0
下载
关闭预览

相关内容

专知会员服务
42+阅读 · 2020年12月18日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
28+阅读 · 2020年11月4日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
67+阅读 · 2020年4月7日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
3+阅读 · 2017年9月12日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年10月27日
Arxiv
0+阅读 · 2021年10月26日
Arxiv
0+阅读 · 2021年10月25日
Arxiv
0+阅读 · 2021年10月24日
Arxiv
0+阅读 · 2021年10月22日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关VIP内容
专知会员服务
42+阅读 · 2020年12月18日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
28+阅读 · 2020年11月4日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
67+阅读 · 2020年4月7日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
3+阅读 · 2017年9月12日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员