Much of the micro data used for epidemiological studies contain sensitive measurements on real individuals. As a result, such micro data cannot be published out of privacy concerns, rendering any published statistical analyses on them nearly impossible to reproduce. To promote the dissemination of key datasets for analysis without jeopardizing the privacy of individuals, we introduce a cohesive Bayesian framework for the generation of fully synthetic, high dimensional micro datasets of mixed categorical, binary, count, and continuous variables. This process centers around a joint Bayesian model that is simultaneously compatible with all of these data types, enabling the creation of mixed synthetic datasets through posterior predictive sampling. Furthermore, a focal point of epidemiological data analysis is the study of conditional relationships between various exposures and key outcome variables through regression analysis. We design a modified data synthesis strategy to target and preserve these conditional relationships, including both nonlinearities and interactions. The proposed techniques are deployed to create a synthetic version of a confidential dataset containing dozens of health, cognitive, and social measurements on nearly 20,000 North Carolina children.


翻译:流行病学研究所用的大部分微观数据都包含对真实个人的敏感测量数据,因此,由于隐私考虑,这类微观数据无法公布,因此几乎不可能再复制。为了在不损害个人隐私的情况下促进关键数据集的分析传播,我们采用了一个统一的巴伊西亚框架,以生成完整合成的高维微观数据集,包括混合的绝对数据、二元数据、计数数据以及连续变量。这一过程围绕一个与所有这些数据类型同时兼容的巴伊西亚联合模型进行,从而能够通过事后预测抽样建立混合合成数据集。此外,流行病学数据分析的一个中心是通过回归分析研究各种暴露与关键结果变量之间的有条件关系。我们设计了一个经过修改的数据综合战略,以瞄准并维护这些有条件的关系,包括非线性和互动性。拟议技术用于建立一个包含近20,000名北卡罗来纳州儿童健康、认知和社会测量结果的合成数据集的合成版本。

0
下载
关闭预览

相关内容

MICRO:IEEE/ACM International Symposium on Microarchitecture Explanation:IEEE/ACM微体系结构国际研讨会。 Publisher:IEEE/ACM。 SIT:https://dblp.uni-trier.de/db/conf/micro/
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
22+阅读 · 2020年1月28日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
4+阅读 · 2018年4月26日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
7+阅读 · 2018年1月21日
VIP会员
相关VIP内容
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
22+阅读 · 2020年1月28日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员