Organizations are increasingly relying on data to support decisions. When data contains private and sensitive information, the data owner often desires to publish a synthetic database instance that is similarly useful as the true data, while ensuring the privacy of individual data records. Existing differentially private data synthesis methods aim to generate useful data based on applications, but they fail in keeping one of the most fundamental data properties of the structured data -- the underlying correlations and dependencies among tuples and attributes (i.e., the structure of the data). This structure is often expressed as integrity and schema constraints, or with a probabilistic generative process. As a result, the synthesized data is not useful for any downstream tasks that require this structure to be preserved. This work presents Kamino, a data synthesis system to ensure differential privacy and to preserve the structure and correlations present in the original dataset. Kamino takes as input of a database instance, along with its schema (including integrity constraints), and produces a synthetic database instance with differential privacy and structure preservation guarantees. We empirically show that while preserving the structure of the data, Kamino achieves comparable and even better usefulness in applications of training classification models and answering marginal queries than the state-of-the-art methods of differentially private data synthesis.


翻译:当数据包含私人和敏感信息时,数据所有人往往希望公布一个与真实数据同样有用的综合数据库实例,同时确保个人数据记录的隐私; 现有的有差别的私人数据合成方法旨在根据应用产生有用的数据,但未能保持结构化数据的最基本数据属性之一 -- -- 结构化数据的内在关联和依赖性(即数据结构),这种结构往往表现为完整性和系统化制约,或具有概率性基因化过程。因此,综合数据对于需要保存这一结构的任何下游任务都无用处。这项工作提出了Kamino,这是一个数据综合系统,以确保有差异的隐私,并维护原始数据集中存在的结构和相关性。 Kamino作为数据库实例的输入,连同其系统化(包括完整性制约),并产生一个综合数据库实例,具有不同的隐私和结构保护保证。我们从经验上表明,在维护数据结构的同时,Kaminos在应用差异化的培训模型和边缘性数据合成方法方面实现了可比的甚至更好的效用。

0
下载
关闭预览

相关内容

Integration:Integration, the VLSI Journal。 Explanation:集成,VLSI杂志。 Publisher:Elsevier。 SIT:http://dblp.uni-trier.de/db/journals/integration/
专知会员服务
73+阅读 · 2021年5月3日
医疗健康领域的短文本理解
专知会员服务
32+阅读 · 2021年1月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
专知会员服务
60+阅读 · 2020年3月19日
深度学习自然语言处理概述,116页ppt,Jiří Materna
专知会员服务
79+阅读 · 2020年3月10日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
300+阅读 · 2019年12月23日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月8日
VIP会员
相关VIP内容
专知会员服务
73+阅读 · 2021年5月3日
医疗健康领域的短文本理解
专知会员服务
32+阅读 · 2021年1月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
专知会员服务
60+阅读 · 2020年3月19日
深度学习自然语言处理概述,116页ppt,Jiří Materna
专知会员服务
79+阅读 · 2020年3月10日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
300+阅读 · 2019年12月23日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员