机器学习模型容易受到多种利用训练模型数据泄露的攻击。差分隐私(DP)是量化隐私风险并提供对抗攻击的可证明保证的黄金标准。然而,在差分隐私下训练机器学习模型通常会导致显著的效用下降。本论文研究如何在差分隐私机器学习中有效地从数据中学习并生成数据。

为了在隐私保护的方式下有效地从数据中学习,首先需要识别可以利用的先验信息类型。首先,我们研究了标签-DP 设置,即特征信息公开,而标签信息私有。我们通过利用公共特征来减少噪声的添加,进而降低噪声的影响,以此来提高标签-DP 下的模型效用。其次,我们研究了如何利用合成图像来改进差分隐私图像分类。尽管这些合成图像是在没有访问真实图像的情况下生成的,并且对非隐私训练帮助有限,我们发现这些合成图像可以为差分隐私图像分类提供更好的先验。我们进一步研究了如何最大化这些合成先验的使用,以充分释放它们在改进隐私训练中的潜力。

第三,我们研究了零阶优化的私有化。零阶优化已被证明在微调大型语言模型时与 SGD 性能相当,我们提出了 DPZO。我们的关键见解是,在零阶优化中,从私有数据中派生的信息仅为一个标量。因此,我们只需对这个标量进行私有化。这种方法隐私友好,因为我们只需为标量添加噪声,而不是对高维梯度加噪。第四,对于差分隐私的合成数据生成,我们研究了在不进行微调的情况下,仅通过访问大型语言模型 API 来私有地生成数据。我们提出的方法可以为大型语言模型中的上下文学习提供隐私保护,同时支持无限查询。 综上所述,本论文探讨了如何在差分隐私机器学习中有效地从数据中学习并生成数据,并提供了在实践中设计隐私保护机器学习模型的方向。

成为VIP会员查看完整内容
15

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】物理启发的生成式模型
专知会员服务
28+阅读 · 9月6日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员