机器学习模型容易受到多种利用训练模型数据泄露的攻击。差分隐私(DP)是量化隐私风险并提供对抗攻击的可证明保证的黄金标准。然而,在差分隐私下训练机器学习模型通常会导致显著的效用下降。本论文研究如何在差分隐私机器学习中有效地从数据中学习并生成数据。
为了在隐私保护的方式下有效地从数据中学习,首先需要识别可以利用的先验信息类型。首先,我们研究了标签-DP 设置,即特征信息公开,而标签信息私有。我们通过利用公共特征来减少噪声的添加,进而降低噪声的影响,以此来提高标签-DP 下的模型效用。其次,我们研究了如何利用合成图像来改进差分隐私图像分类。尽管这些合成图像是在没有访问真实图像的情况下生成的,并且对非隐私训练帮助有限,我们发现这些合成图像可以为差分隐私图像分类提供更好的先验。我们进一步研究了如何最大化这些合成先验的使用,以充分释放它们在改进隐私训练中的潜力。
第三,我们研究了零阶优化的私有化。零阶优化已被证明在微调大型语言模型时与 SGD 性能相当,我们提出了 DPZO。我们的关键见解是,在零阶优化中,从私有数据中派生的信息仅为一个标量。因此,我们只需对这个标量进行私有化。这种方法隐私友好,因为我们只需为标量添加噪声,而不是对高维梯度加噪。第四,对于差分隐私的合成数据生成,我们研究了在不进行微调的情况下,仅通过访问大型语言模型 API 来私有地生成数据。我们提出的方法可以为大型语言模型中的上下文学习提供隐私保护,同时支持无限查询。 综上所述,本论文探讨了如何在差分隐私机器学习中有效地从数据中学习并生成数据,并提供了在实践中设计隐私保护机器学习模型的方向。