基于差分隐私框架的研究,旨在克服隐私保护技术在实际数据分析中的广泛应用障碍。本研究以差分隐私这一强有力的隐私标准为基础,旨在克服隐私保护技术在实际数据分析中的广泛应用障碍。我们在以下三个关键领域做出了贡献:私密置信区间、重频项检测和插值域中的私密优化。每个领域都解决了特定的挑战,并提出了解决方案,以提高差分隐私的实际效用。

一、私密置信区间

首先,本论文介绍了基于自举法的算法来构建差分隐私置信区间,这是隐私文献中基本缺失的一个重要推断工具。通过利用“小自举袋”(Bag of Little Bootstraps, BLB)方法,所提出的方法为广泛统计量提供了准确且私密的置信集。这些技术在理论上具有强大的保证,并在合成和真实世界的数据集上通过实验展示了其实用性能。

二、重频项检测

其次,本研究探讨了在大型数据领域中进行差分隐私重频项检测的问题,这是理解用户行为和改进服务的重要任务。所提出的迭代联邦算法针对前缀树结构进行了优化,能够动态适应用户数据,减少通信和计算成本,同时保持高效用性。该算法结合了自适应分段、设备端数据选择机制和拒绝列表,以提高性能和隐私保护。

三、插值域中的私密优化

第三,本论文研究了插值域中的私密优化问题,即解决方案能够同时最小化所有样本损失。研究表明,尽管在一般情况下无法实现收敛率的总体改进,但对于具有特定增长特性的函数,可以实现显著的加速。所提出的算法在这种情况下实现了接近指数级的小超额损失,推进了机器学习中私密优化的理解和效率。

总结

总体而言,本论文推进了差分隐私的实际应用,实现了从理论隐私保证到实际数据分析应用的桥梁。通过解决关键挑战并提出强有力的解决方案,它为更广泛的应用和增强隐私保护数据实践的信任铺平了道路。 在数据生成和收集以空前速度进行的时代,确保这些数据的隐私,同时提取有意义的洞察至关重要。大数据的兴起为各个领域的进步带来了巨大的机会,但也引发了对敏感信息隐私和安全的重大担忧。随着数据分析师和统计学家努力做出数据驱动的决策,保护用户隐私而不牺牲数据效用变得越来越关键。本论文旨在通过开发和改进方法来解决这些挑战,以实现有效的数据分析,同时保护隐私。 我们采用Dwork等人(2006a)提出的广泛接受的隐私方法论,即差分隐私。这一方法论约束机制在相似输入上返回相似输出,从而减少对手在知道数据集中的所有点(除一个数据点外)的情况下,能够自信地确定一个输入数据点的能力。这些强有力的保证激发了私人数据分析和优化领域的大量研究,如统计估计(Duchi et al., 2013b, 2023;Smith, 2011)、重频项识别(Erlingsson et al., 2014;Acharya et al., 2019;Feldman and Talwar, 2021;Feldman et al., 2022)、机器学习(Abadi et al., 2016a)和优化(Bassily et al., 2014;Feldman et al., 2020)。虽然这些差分隐私的理论工作在开发既能提供合理效用保证又能保护用户隐私的算法方面显示出希望,但这些实践尚未得到广泛采用。在本论文中,我们识别了阻碍差分隐私实际应用的几个原因,并提出了解决这些问题的方案。总结我们的贡献如下:

差分隐私的推断工具缺乏:用于围绕点估计构建置信区间的推断工具是缺乏的。在第二章中,我们提出了两种基于自举法的算法,用于构建满足差分隐私的置信区间。 * 大域重频项识别在联邦环境中的实际优化:在第三章中,我们研究了诸如自适应分段、数据选择机制和拒绝列表等实际优化的效果,并为使用基于前缀树的算法提供了处方。 * 插值域中的私密随机凸优化:在第四章中,我们研究了在假设所有样本函数存在共同优化器的插值域中,算法的限制和最佳性能。

结论

本论文通过开发和优化差分隐私方法,推动了其在实际数据分析中的应用。我们的研究为差分隐私的实际应用提供了工具和框架,缩小了理论隐私保证与实际数据分析应用之间的差距。通过解决关键挑战并提出可靠的解决方案,我们为更广泛的应用和增强隐私保护数据实践的信任铺平了道路。

成为VIP会员查看完整内容
22

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。
【MIT博士论文】垂直领域生成式模型,107页pdf
专知会员服务
66+阅读 · 2023年11月13日
【MIT博士论文】高效可靠深度学习的共形方法,213页pdf
专知会员服务
39+阅读 · 2023年11月12日
专知会员服务
34+阅读 · 2021年7月19日
【2022新书】深度学习归一化技术,117页pdf
专知
22+阅读 · 2022年11月25日
【干货书】优化算法,232页pdf
专知
25+阅读 · 2022年9月8日
【干货书】高维统计学,572页pdf
专知
14+阅读 · 2021年12月3日
【干货书】数据科学手册,456页pdf
专知
12+阅读 · 2021年4月28日
深度多模态表示学习综述论文,22页pdf
专知
30+阅读 · 2020年6月21日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
149+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
386+阅读 · 2023年3月31日
Arxiv
64+阅读 · 2023年3月26日
Arxiv
133+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员