Recent success of deep neural networks (DNNs) hinges on the availability of large-scale dataset; however, training on such dataset often poses privacy risks for sensitive training information. In this paper, we aim to explore the power of generative models and gradient sparsity, and propose a scalable privacy-preserving generative model DATALENS. Comparing with the standard PATE privacy-preserving framework which allows teachers to vote on one-dimensional predictions, voting on the high dimensional gradient vectors is challenging in terms of privacy preservation. As dimension reduction techniques are required, we need to navigate a delicate tradeoff space between (1) the improvement of privacy preservation and (2) the slowdown of SGD convergence. To tackle this, we take advantage of communication efficient learning and propose a novel noise compression and aggregation approach TOPAGG by combining top-k compression for dimension reduction with a corresponding noise injection mechanism. We theoretically prove that the DATALENS framework guarantees differential privacy for its generated data, and provide analysis on its convergence. To demonstrate the practical usage of DATALENS, we conduct extensive experiments on diverse datasets including MNIST, Fashion-MNIST, and high dimensional CelebA, and we show that, DATALENS significantly outperforms other baseline DP generative models. In addition, we adapt the proposed TOPAGG approach, which is one of the key building blocks in DATALENS, to DP SGD training, and show that it is able to achieve higher utility than the state-of-the-art DP SGD approach in most cases.


翻译:最近深神经网络(DNNS)的成功取决于大规模数据集的可用性;然而,关于这类数据集的培训往往对敏感的培训信息构成隐私风险。在本文件中,我们的目标是探索基因模型和梯度宽度模型的力量,并提出可扩缩的隐私保存基因模型DATALENS。与标准PATE隐私保护框架相比,允许教师对一维预测进行投票,对高维梯度矢量的投票在隐私保护方法方面具有挑战性。由于需要降低尺寸技术,我们需要在(1)改进隐私保护以及(2) SGD趋同减慢之间,找到一个微妙的交换空间。为了解决这个问题,我们利用了高效的通信模型的力量,提出了新的噪音压缩和集成方法,将降低尺寸的顶级压缩与相应的噪音注入机制结合起来。我们理论上证明DATALENS框架保证其生成的数据有差异性隐私权,并提供关于其趋同性的分析。为了展示DATALENS的实际使用,我们需要在多种数据集中进行广泛的实验,包括MNIST、FAS-DGA、我们GAS-DADA的升级,这是我们GADADMADADADDDDDMDA,这是我们GADDDDMDMDMDDA中的一项重大的升级。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
已删除
将门创投
12+阅读 · 2019年7月1日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月1日
VIP会员
相关资讯
已删除
将门创投
12+阅读 · 2019年7月1日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员