We propose a Bayesian pseudo posterior mechanism to generate record-level synthetic databases equipped with an $(\epsilon,\delta)-$ probabilistic differential privacy (pDP) guarantee, where $\delta$ denotes the probability that any observed database exceeds $\epsilon$. The pseudo posterior mechanism employs a data record-indexed, risk-based weight vector with weight values $\in [0, 1]$ that surgically downweight the likelihood contributions for high-risk records for model estimation and the generation of record-level synthetic data for public release. The pseudo posterior synthesizer constructs a weight for each data record using the Lipschitz bound for that record under a log-pseudo likelihood utility function that generalizes the exponential mechanism (EM) used to construct a formally private data generating mechanism. By selecting weights to remove likelihood contributions with non-finite log-likelihood values, we guarantee a finite local privacy guarantee for our pseudo posterior mechanism at every sample size. Our results may be applied to \emph{any} synthesizing model envisioned by the data disseminator in a computationally tractable way that only involves estimation of a pseudo posterior distribution for parameters, $\theta$, unlike recent approaches that use naturally-bounded utility functions implemented through the EM. We specify mild conditions that guarantee the asymptotic contraction of $\delta$ to $0$ over the space of databases. We illustrate our pseudo posterior mechanism on the sensitive family income variable from the Consumer Expenditure Surveys database published by the U.S. Bureau of Labor Statistics. We show that utility is better preserved in the synthetic data for our pseudo posterior mechanism as compared to the EM, both estimated using the same non-private synthesizer, due to our use of targeted downweighting.


翻译:我们提议建立贝叶色假伪后天体机制, 以生成记录级合成数据库, 并配有美元( epsilon,\delta)- 美元( obbiodical) 的概率差异隐私保障( pDP) 。 美元( delta) 表示任何观察到的数据库都超过$( epsilon) 的概率。 假后天体机制使用一个重值( $, 0. 1) 的数据记录指数指数指数指数化的基于风险的重量矢量矢量机制, 以外科方式降低高风险记录对模型估算和生成记录级通用合成数据的可能性。 假后天体合成数据记录仪( $) 将每个数据记录值的数值值值值值值值调整为美元( 美元( 美元) 。 我们的汇率指数级( ) 生成的结果可能适用于每个数据记录级数( 美元( ) ) 变量( 美元( 美元( 美元) 美元) ) 的数值( 美元( 美元( 美元) 美元) ( 美元( 美元) 美元( 美元) 美元( 美元) ( 美元) 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( ) ( 美元) ( ) ( ) ( ) ( ) ( 美元) ( 美元) ( 美元) ( 美元) ( 美元) ( ) ( ) ( ) ( 美元) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (

0
下载
关闭预览

相关内容

专知会员服务
18+阅读 · 2021年8月4日
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
65+阅读 · 2020年12月11日
专知会员服务
54+阅读 · 2020年9月7日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年10月13日
Arxiv
0+阅读 · 2021年10月11日
VIP会员
相关VIP内容
专知会员服务
18+阅读 · 2021年8月4日
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
65+阅读 · 2020年12月11日
专知会员服务
54+阅读 · 2020年9月7日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员