深度学习模型在训练过程中使用了敏感数据,当这些模型被部署时,可能会泄露隐私。例如,使用标准算法训练的语言模型可能会重复训练数据并揭示数据贡献者的成员信息。差分隐私(Differential Privacy, DP)是一种正式的保证,可以证明其限制隐私泄露,并已成为隐私保护统计数据分析的黄金标准。然而,大多数使用DP训练深度学习模型的方法计算强度高,并且会显著降低模型的任务性能。本文提出了用于深度学习的改进差分隐私技术,这些技术更加高效且具有更好的性能。这些技术在工业界受到越来越多的关注,并已在主要科技公司的差分隐私机器学习部署中使用,保护用户隐私并提供可观的计算节省。我们表明,当差分隐私随机梯度下降(DP-SGD)适当地应用于微调质量和规模不断提升的预训练模型时,会产生一致更好的隐私-效用折衷。与标准训练算法相比,DP-SGD占用更多内存且速度较慢。我们对DP-SGD进行了算法和实现上的修改,使其在Transformer模型上的效率与标准训练一样高。我们的实证研究挑战了普遍认为DP-SGD在优化高维目标时表现不佳的观点。为了理解和解释我们的实证结果,我们还提出了新的理论分析,基于类似大规模微调的玩具模型,显示DP-SGD对于一类无约束凸优化问题具有与维度无关的界限。 随着用户数据越来越多地被视为训练预测模型的潜在来源,机器学习中的隐私问题引起了广泛关注。针对机器学习流程的隐私攻击表明,没有正式保证的训练模型可能会泄露成员信息并重现训练数据(Shokri et al., 2017;Carlini et al., 2021)。这些漏洞不仅仅是学术兴趣,它们已经导致了社会危害,并增加了公众对机器学习应用的信任危机。例如,韩国一家公司开发的聊天机器人使用了(私有的)用户数据,重复了诸如昵称和家庭地址等敏感信息,导致了一场公关危机(Jang, 2021)。此外,隐私问题阻碍了在医疗保健等专业领域的数据驱动系统的发展,在这些领域,大量优质数据是敏感的。这些问题挑战了随着立法和政策收紧,机器学习和AI的社会效益能否得到充分实现。

https://searchworks.stanford.edu/view/in00000107638

差分隐私(Differential Privacy, DP)(Dwork et al., 2014)是一种正式的隐私定义,已成为私有数据统计分析的黄金标准。差分隐私算法在成员推断(Yeom et al., 2018;Wasserman & Zhou, 2010)和数据重建攻击(Guo et al., 2022;Hayes et al., 2023)方面被证明具有抵抗力。因此,这些算法已被用于诸如2020年美国人口普查(US Census, 2020)等高风险场景以保护用户隐私。与差分隐私在私有统计数据分析中的日益普及相比,该隐私框架在深度学习应用中的行业采用率有限。例如,尽管从2015年至2021年间有成千上万的论文发表在差分隐私深度学习主题上,Gmail智能回复(Miraglia, 2019)是该范式的唯一主要行业应用之一。滞后的原因之一是,大多数带有差分隐私保证的深度学习模型训练方法计算强度高,或在数据不丰富的情况下会显著降低模型的任务性能。 本论文提出了更高效和性能更好的差分隐私深度学习训练技术。这些改进已经在行业中得到了应用,使得差分隐私深度学习比以往任何时候都更具吸引力。例如,本文提出的一些思想已用于微软差分隐私机器学习的首次部署(Yue et al., 2023;Yu et al., 2023)。 本论文的其余部分从第二章开始,介绍了机器学习中的隐私风险和常用的差分隐私训练算法。第三章提出了一种消除差分隐私训练内存开销的技术以及改进隐私-效用折衷的方法。第四章介绍了通过扩展上一章的思想进一步消除内存-计算折衷的技术。第五章提供了我们实证观察的理论解释。我们在第1.1节中总结了这些贡献。 本论文大部分工作是在辅助公共数据的私有学习环境中进行的。然而,值得注意的是,本文提出的某些思想可以更广泛地应用。例如,第二章讨论的高性能差分隐私方法可以用于在模型训练中保护版权材料的版权(Henderson et al., 2023)。第三章讨论了有效噪声的批量大小调整,这可以应用于改进私有预训练的任务性能。最后,我们注意到,机器学习中的隐私问题是广泛而复杂的。虽然差分隐私提供了一种稳健且特定形式的保护,但不应被视为解决所有隐私问题的万能方案。例如,差分隐私无法解决数据收集过程中发生的各种隐私损害(Solove, 2005)。此外,为了使差分隐私算法在限制参与推断方面有效,需要理解应用的背景以及私有数据的生成过程(Kifer & Machanavajjhala, 2011),以便在适当的粒度上应用差分隐私保证。第六章讨论了这些考虑因素。

成为VIP会员查看完整内容
17

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
41+阅读 · 2024年7月8日
【博士论文】安全的线上和线下强化学习,142页pdf
专知会员服务
23+阅读 · 2024年6月12日
【博士论文】学习表征以检测新颖性和异常性,72页pdf
专知会员服务
19+阅读 · 2023年9月30日
【斯坦福博士论文】可靠机器学习在真实世界中, 519页pdf
【宾夕法尼亚博士论文】大规模图机器学习,179页pdf
专知会员服务
40+阅读 · 2022年11月20日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
100+阅读 · 2022年9月19日
专知会员服务
127+阅读 · 2021年8月25日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
41+阅读 · 2024年7月8日
【博士论文】安全的线上和线下强化学习,142页pdf
专知会员服务
23+阅读 · 2024年6月12日
【博士论文】学习表征以检测新颖性和异常性,72页pdf
专知会员服务
19+阅读 · 2023年9月30日
【斯坦福博士论文】可靠机器学习在真实世界中, 519页pdf
【宾夕法尼亚博士论文】大规模图机器学习,179页pdf
专知会员服务
40+阅读 · 2022年11月20日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
100+阅读 · 2022年9月19日
专知会员服务
127+阅读 · 2021年8月25日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员