首先,本论文介绍了基于自举法的算法来构建差分隐私置信区间,这是隐私文献中基本缺失的一个重要推断工具。通过利用“小自举袋”(Bag of Little Bootstraps, BLB)方法,所提出的方法为广泛统计量提供了准确且私密的置信集。这些技术在理论上具有强大的保证,并在合成和真实世界的数据集上通过实验展示了其实用性能。
其次,本研究探讨了在大型数据领域中进行差分隐私重频项检测的问题,这是理解用户行为和改进服务的重要任务。所提出的迭代联邦算法针对前缀树结构进行了优化,能够动态适应用户数据,减少通信和计算成本,同时保持高效用性。该算法结合了自适应分段、设备端数据选择机制和拒绝列表,以提高性能和隐私保护。
第三,本论文研究了插值域中的私密优化问题,即解决方案能够同时最小化所有样本损失。研究表明,尽管在一般情况下无法实现收敛率的总体改进,但对于具有特定增长特性的函数,可以实现显著的加速。所提出的算法在这种情况下实现了接近指数级的小超额损失,推进了机器学习中私密优化的理解和效率。
总体而言,本论文推进了差分隐私的实际应用,实现了从理论隐私保证到实际数据分析应用的桥梁。通过解决关键挑战并提出强有力的解决方案,它为更广泛的应用和增强隐私保护数据实践的信任铺平了道路。 在数据生成和收集以空前速度进行的时代,确保这些数据的隐私,同时提取有意义的洞察至关重要。大数据的兴起为各个领域的进步带来了巨大的机会,但也引发了对敏感信息隐私和安全的重大担忧。随着数据分析师和统计学家努力做出数据驱动的决策,保护用户隐私而不牺牲数据效用变得越来越关键。本论文旨在通过开发和改进方法来解决这些挑战,以实现有效的数据分析,同时保护隐私。 我们采用Dwork等人(2006a)提出的广泛接受的隐私方法论,即差分隐私。这一方法论约束机制在相似输入上返回相似输出,从而减少对手在知道数据集中的所有点(除一个数据点外)的情况下,能够自信地确定一个输入数据点的能力。这些强有力的保证激发了私人数据分析和优化领域的大量研究,如统计估计(Duchi et al., 2013b, 2023;Smith, 2011)、重频项识别(Erlingsson et al., 2014;Acharya et al., 2019;Feldman and Talwar, 2021;Feldman et al., 2022)、机器学习(Abadi et al., 2016a)和优化(Bassily et al., 2014;Feldman et al., 2020)。虽然这些差分隐私的理论工作在开发既能提供合理效用保证又能保护用户隐私的算法方面显示出希望,但这些实践尚未得到广泛采用。在本论文中,我们识别了阻碍差分隐私实际应用的几个原因,并提出了解决这些问题的方案。总结我们的贡献如下:
差分隐私的推断工具缺乏:用于围绕点估计构建置信区间的推断工具是缺乏的。在第二章中,我们提出了两种基于自举法的算法,用于构建满足差分隐私的置信区间。 * 大域重频项识别在联邦环境中的实际优化:在第三章中,我们研究了诸如自适应分段、数据选择机制和拒绝列表等实际优化的效果,并为使用基于前缀树的算法提供了处方。 * 插值域中的私密随机凸优化:在第四章中,我们研究了在假设所有样本函数存在共同优化器的插值域中,算法的限制和最佳性能。
本论文通过开发和优化差分隐私方法,推动了其在实际数据分析中的应用。我们的研究为差分隐私的实际应用提供了工具和框架,缩小了理论隐私保证与实际数据分析应用之间的差距。通过解决关键挑战并提出可靠的解决方案,我们为更广泛的应用和增强隐私保护数据实践的信任铺平了道路。