我们提出了一种新的参数化方案来解决在大型神经网络上运用差分私有SGD所面临的挑战,这些挑战包括1) 存储单个梯度的巨大存储成本,2) 附加的噪声严重依赖于维数。具体地说,我们用两个小维的梯度载波矩阵和一个残差权矩阵来重新参数化每个权矩阵。我们认为,这样的重新参数化保持向前/向后过程不变,同时使我们能够在不计算梯度本身的情况下计算投影梯度。为了学习差分隐私,我们设计了重参数梯度扰动(RGP),它扰乱梯度载体矩阵上的梯度,并从有噪声的梯度中重建原始权重的更新。重要的是,我们使用历史更新来寻找梯度载波矩阵,其最优性在线性回归下得到严格证明,并通过深度学习任务得到经验验证。RGP显著降低了内存成本并改进了实用程序。例如,我们首次能够在BERT模型上应用差分隐私,并在e = 8的四个下游任务上实现了83.9%的平均精度,与非私有基准相比,损失在5%以内,但隐私泄漏风险要低得多。
https://www.zhuanzhi.ai/paper/3daeb1dc335f94ac104faf7abb027f98