Statistical agencies utilize models to synthesize respondent-level data for release to the public for privacy protection. In this work, we efficiently induce privacy protection into any Bayesian synthesis model by employing a pseudo likelihood that exponentiates each likelihood contribution by an observation record-indexed weight in [0, 1], defined to be inversely proportional to the identification risk for that record. We start with the marginal probability of identification risk for a record, which is composed as the probability that the identity of the record may be disclosed. Our application to the Consumer Expenditure Surveys (CE) of the U.S. Bureau of Labor Statistics demonstrates that the marginally risk-adjusted synthesizer provides an overall improved privacy protection; however, the identification risks actually increase for some moderate-risk records after risk-adjusted pseudo posterior estimation synthesis due to increased isolation after weighting; a phenomenon we label "whack-a-mole". We proceed to construct a weight for each record from a collection of pairwise identification risk probabilities with other records, where each pairwise probability measures the joint probability of re-identification of the pair of records, which mitigates the whack-a-mole issue and produces a more efficient set of synthetic data with lower risk and higher utility for the CE data.


翻译:在这项工作中,我们有效地将隐私保护引入任何巴伊西亚综合模型,方法是使用一种假冒的可能性,在[0,1] 中,通过观察记录索引加权数来说明每一种可能性,而[0,1] 中的观察记录索引加权数被界定为与该记录的识别风险成反比。我们首先从记录识别风险的边缘概率开始,即记录识别风险的概率为可能披露记录身份的概率。我们对美国劳工统计局消费者支出调查(CE)的应用表明,微小风险调整合成器提供了总体的改进隐私保护;然而,在风险调整后,由于加权后增加孤立性,某些中度风险记录中的模拟后,识别风险实际上会增加;一种我们称之为“whack-a-mole”的现象。我们着手从收集双向识别风险概率与其他记录之间的概率中为每记录设定一个加权值,其中每种概率都测量了重新定位对口记录的共同概率,从而减轻了重塑版和合成版数据的效率。

0
下载
关闭预览

相关内容

【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
168+阅读 · 2020年4月26日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
36+阅读 · 2020年4月1日
专知会员服务
55+阅读 · 2020年3月16日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Arxiv
0+阅读 · 2021年4月1日
Arxiv
0+阅读 · 2021年3月31日
Arxiv
0+阅读 · 2021年3月30日
VIP会员
相关VIP内容
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
168+阅读 · 2020年4月26日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
36+阅读 · 2020年4月1日
专知会员服务
55+阅读 · 2020年3月16日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Top
微信扫码咨询专知VIP会员