In a world where artificial intelligence and data science become omnipresent, data sharing is increasingly locking horns with data-privacy concerns. Differential privacy has emerged as a rigorous framework for protecting individual privacy in a statistical database, while releasing useful statistical information about the database. The standard way to implement differential privacy is to inject a sufficient amount of noise into the data. However, in addition to other limitations of differential privacy, this process of adding noise will affect data accuracy and utility. Another approach to enable privacy in data sharing is based on the concept of synthetic data. The goal of synthetic data is to create an as-realistic-as-possible dataset, one that not only maintains the nuances of the original data, but does so without risk of exposing sensitive information. The combination of differential privacy with synthetic data has been suggested as a best-of-both-worlds solutions. In this work, we propose the first noisefree method to construct differentially private synthetic data; we do this through a mechanism called "private sampling". Using the Boolean cube as benchmark data model, we derive explicit bounds on accuracy and privacy of the constructed synthetic data. The key mathematical tools are hypercontractivity, duality, and empirical processes. A core ingredient of our private sampling mechanism is a rigorous "marginal correction" method, which has the remarkable property that importance reweighting can be utilized to exactly match the marginals of the sample to the marginals of the population.


翻译:在一个人工智能和数据科学变得无处不在的世界中,数据共享正在日益将数据隐私与数据隐私问题锁定在一个充满数据隐私的世界中。不同的隐私已经成为一个在统计数据库中保护个人隐私的严格框架,同时释放了有关数据库的有用统计资料。实施差异隐私的标准方法是在数据中注入足够的噪音。但是,除了对差异隐私的其他限制外,增加噪音的过程将影响数据的准确性和实用性。另一个使数据共享隐私得以实现的方法是以合成数据概念为基础的。合成数据的目标是创建一个既现实又可行的数据集,不仅保持原始数据的细微差别,而且这样做没有暴露敏感信息的风险。实施差异隐私的标准方式是将足够的噪音注入到数据中去。在这项工作中,我们提出了第一种无噪音构建差异私人合成合成数据的方法;我们通过一个名为“私人抽样”的机制这样做。使用边际的基件作为基准数据模型,我们在构建的合成数据的精确性和隐私数据集的精确性和保密性方面有明确的界限。一个严格的数学工具是“精确的双重性,其核心的精准性结构工具是“一个精确的磁性工具的精准性,其核心的精准性比重的双重性。”

0
下载
关闭预览

相关内容

专知会员服务
53+阅读 · 2020年9月7日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
生物探索
3+阅读 · 2018年2月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年11月22日
Arxiv
0+阅读 · 2021年11月21日
Arxiv
3+阅读 · 2019年10月31日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
生物探索
3+阅读 · 2018年2月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员