机器学习模型容易受到一系列攻击,这些攻击利用了训练模型中的数据泄露。差分隐私 (Differential Privacy, DP) 是量化隐私风险并提供可证明的攻击防御保证的黄金标准。然而,在差分隐私下训练机器学习模型通常会导致显著的效用下降。在本论文中,我们探讨了如何在差分隐私机器学习中有效地从数据中学习和生成数据。

为了在保护隐私的情况下有效地从数据中学习,识别可以利用的先验信息类型至关重要。首先,我们研究了标签差分隐私 (label-DP) 设置,其中特征信息是公开的,而标签信息是私密的。我们研究了如何通过利用公共特征减少噪声添加量并减小噪声影响,从而提高模型在标签差分隐私下的效用。

其次,我们研究了如何利用合成图像来改善差分隐私图像分类。尽管这些合成图像是在没有访问真实世界图像的情况下生成的,并且在非隐私训练中仅具有有限帮助,但我们发现这些合成图像可以为差分隐私图像分类提供更好的先验信息。我们进一步研究了如何最大化使用这些合成先验信息,从而释放其全部潜力以改进隐私训练。

第三,我们研究了零阶优化(zeroth-order optimization)的私有化,该方法已被证明在微调大语言模型时可以达到与随机梯度下降法 (SGD) 相竞争的性能,并提出了差分隐私零阶优化 (DP-ZO)。我们的关键见解是,在零阶优化中,从私有数据中派生的信息仅为一个标量。因此,我们只需要对这个标量进行隐私处理。这对隐私非常友好,因为我们只需要对标量添加噪声,而不是高维梯度。

第四,针对差分隐私的合成数据生成,我们研究了仅通过 API 访问大型语言模型而不进行微调的情况下私密生成数据的方法。我们提出的方法能够为大型语言模型的上下文学习 (in-context learning) 提供隐私保护,并支持无限查询。

总而言之,本论文探讨了如何在差分隐私机器学习中有效地从数据中学习和生成数据,并为设计实际中的隐私保护机器学习模型提供了方向。

成为VIP会员查看完整内容
18

相关内容

【斯坦福博士论文】大模型驱动的鲁棒机器学习,243页pdf
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
【KDD2020】图神经网络:基础与应用,322页ppt
最新《动态网络嵌入》综述论文,25页pdf
专知
34+阅读 · 2020年6月17日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
Arxiv
156+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员