Sharing sensitive data is vital in enabling many modern data analysis and machine learning tasks. However, current methods for data release are insufficiently accurate or granular to provide meaningful utility, and they carry a high risk of deanonymization or membership inference attacks. In this paper, we propose a differentially private synthetic data generation solution with a focus on the compelling domain of location data. We present two methods with high practical utility for generating synthetic location data from real locations, both of which protect the existence and true location of each individual in the original dataset. Our first, partitioning-based approach introduces a novel method for privately generating point data using kernel density estimation, in addition to employing private adaptations of classic statistical techniques, such as clustering, for private partitioning. Our second, network-based approach incorporates public geographic information, such as the road network of a city, to constrain the bounds of synthetic data points and hence improve the accuracy of the synthetic data. Both methods satisfy the requirements of differential privacy, while also enabling accurate generation of synthetic data that aims to preserve the distribution of the real locations. We conduct experiments using three large-scale location datasets to show that the proposed solutions generate synthetic location data with high utility and strong similarity to the real datasets. We highlight some practical applications for our work by applying our synthetic data to a range of location analytics queries, and we demonstrate that our synthetic data produces near-identical answers to the same queries compared to when real data is used. Our results show that the proposed approaches are practical solutions for sharing and analyzing sensitive location data privately.


翻译:共享敏感数据对于实现许多现代数据分析和机器学习任务至关重要。然而,当前数据发布方法不够准确,或颗粒化,无法提供有意义的效用,因此数据发布方法具有失匿名或成员推断攻击的高度风险。在本文件中,我们建议采用有差别的私人合成数据生成解决方案,重点是令人信服的定位数据领域。我们提出了两种方法,这两种方法在从真实地点生成合成定位数据方面都具有高度实用的实用效用,这两种方法都保护了每个个人在原始数据集中的存在和真实位置。我们的第一种基于保密的方法引入了一种新颖的方法,用于利用内核密度估计私下生成点数据,此外,还采用对传统统计技术(如集群)进行私人调整,如对私人分区进行非匿名或成员推断。我们的第二个基于网络的方法包括公共地理信息,如城市的道路网络,以限制合成数据点的界限,从而提高合成数据的准确性。这两种方法都满足了个人在原始数据集中的存在和真实的答案的生成。我们使用三种大规模定位数据进行实验,我们使用三种大规模的位置数据采集的方法,以显示我们使用高实用性数据的方法来显示我们用于合成位置的合成数据的位置。我们使用的一些数据,我们使用的方法是用来显示我们使用高实用性数据采集数据。我们使用的方法,用来显示我们使用的一种合成数据的位置,以显示我们使用的方法是用来显示我们使用高合成数据定位数据的位置。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
【MIT干货书】机器学习算法视角,126页pdf
专知会员服务
77+阅读 · 2021年1月25日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
4+阅读 · 2017年7月7日
A Survey on Security and Privacy Issues of UAVs
Arxiv
0+阅读 · 2021年10月5日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
4+阅读 · 2017年7月7日
Top
微信扫码咨询专知VIP会员