Genomic data provides researchers with an invaluable source of information to advance progress in biomedical research, personalized medicine, and drug development. At the same time, however, this data is extremely sensitive, which makes data sharing, and consequently availability, problematic if not outright impossible. As a result, organizations have begun to experiment with sharing synthetic data, which should mirror the real data's salient characteristics, without exposing it. In this paper, we provide the first evaluation of the utility and the privacy protection of five state-of-the-art models for generating synthetic genomic data. First, we assess the performance of the synthetic data on a number of common tasks, such as allele and population statistics as well as linkage disequilibrium and principal component analysis. Then, we study the susceptibility of the data to membership inference attacks, i.e., inferring whether a target record was part of the data used to train the model producing the synthetic dataset. Overall, there is no single approach for generating synthetic genomic data that performs well across the board. We show how the size and the nature of the training dataset matter, especially in the case of generative models. While some combinations of datasets and models produce synthetic data with distributions close to the real data, there often are target data points that are vulnerable to membership inference. Our measurement framework can be used by practitioners to assess the risks of deploying synthetic genomic data in the wild, and will serve as a benchmark tool for researchers and practitioners in the future.


翻译:基因组数据为研究人员提供了宝贵的信息来源,以推进生物医学研究、个性化医学和药物开发的进展。但与此同时,这些数据极其敏感,使得数据共享、因此提供甚至根本不可能完全不可能。因此,各组织开始试验共享合成数据,这些数据应当反映真实数据的显著特征,而不暴露这些数据的显著特征。在本文件中,我们提供了对五个最先进的合成基因组数据生成模型的效用和隐私保护的首次评估。首先,我们评估了一些共同任务,例如全方位和人口统计以及连接不均和主要组成部分分析等合成数据的性能。然后,我们研究数据是否易于被归属于会籍攻击,即推断目标记录是否是用于培训合成数据集模型生成模型的数据的一部分。总体而言,没有一种单一的方法来生成综合的合成基因组数据。我们展示了培训数据设置事项的规模和性质,特别是联系不均匀和主要组成部分分析。然后,我们研究数据是否容易成为成员攻击的对象,即推断指标记录是否是用来对数据进行精确的模型进行精确的组合,同时将数据作为我们所使用的综合数据采集的模型中的某些数据进行精确的组合。

0
下载
关闭预览

相关内容

【AAAI2021】低资源医疗对话生成的图演化元学习
专知会员服务
47+阅读 · 2020年12月26日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
182+阅读 · 2020年7月29日
【开放书】清华大学《语音识别基本法》,215页pdf
专知会员服务
145+阅读 · 2020年7月29日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
35+阅读 · 2020年4月1日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
4+阅读 · 2018年11月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年3月30日
Arxiv
0+阅读 · 2021年3月28日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
4+阅读 · 2018年11月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员