We revisit 1-bit gradient compression through the lens of mutual-information differential privacy (MI-DP). Building on signSGD, we propose FERRET--Fast and Effective Restricted Release for Ethical Training--which transmits at most one sign bit per parameter group with Bernoulli masking. Theory: We prove each fired group leaks at most ln 2 nats; after subsampling with rate s, the total privacy loss of G groups trained for T steps with firing probability p is epsilon = G * T * s * p * ln 2. Thus FERRET achieves MI-DP for epsilon in [0.1, 2] without additive noise. Practice: We evaluate three granularities--FERRET-MAX (finest), FERRET-EIGHTH (medium), and FERRET-2 (coarsest)--on five LLMs (137M-1.8B parameters) against DPSGD and Non-DP baselines. All methods trained for 1, 3, and 5 epochs. Utility: Across all settings, FERRET-MAX/EIGHTH beat DPSGD's perplexity. At epsilon=0.5, 5 epochs: FERRET-EIGHTH achieves 3.98 perplexity vs DPSGD's 11.61 (2.9x better), within 23% of Non-DP (3.25). Privacy: MI-AUC stays at chance for FERRET-MAX/EIGHTH (~0.51), matching DPSGD vs Non-DP's 0.76-0.99. FERRET-2 shows higher leakage (~0.55) due to lower headroom. Efficiency: Stricter budgets fire fewer signs, so FERRET uses 19-33% of DPSGD's training time and only 34-36% of Non-DP training time. Take-away: Sign-based MI-DP gets closer to achieving all three qualities of the privacy, utility, performance trilemma: FERRET trains up to 5x faster, achieves 3x lower perplexity compared to DPSGD and 1.2x greater than Non-DP, all while providing formal, mathematically provable privacy guarantees using zero additive noise. The results also show that, in certain instances, masked 1-bit updates can match non-private training utility while safeguarding data.


翻译:我们通过互信息差分隐私(MI-DP)的视角重新审视1比特梯度压缩。基于signSGD,我们提出了FERRET——快速有效的伦理训练受限发布机制——它通过伯努利掩码,每个参数组至多传输一个符号位。理论:我们证明每个被触发的组最多泄露ln 2纳特信息;在采样率为s的情况下,经过T步训练、触发概率为p的G个组的总隐私损失为epsilon = G * T * s * p * ln 2。因此,FERRET无需添加噪声即可在epsilon ∈ [0.1, 2]范围内实现MI-DP。实践:我们在五个大语言模型(1.37亿至18亿参数)上评估了三种粒度——FERRET-MAX(最细)、FERRET-EIGHTH(中等)和FERRET-2(最粗),并与DPSGD及非差分隐私基线进行比较。所有方法均训练1、3和5个轮次。效用:在所有设置中,FERRET-MAX/EIGHTH的困惑度均优于DPSGD。在epsilon=0.5、5个轮次时:FERRET-EIGHTH达到3.98困惑度,而DPSGD为11.61(提升2.9倍),与非差分隐私基线(3.25)的差距在23%以内。隐私:FERRET-MAX/EIGHTH的MI-AUC保持在随机水平(约0.51),与DPSGD相当,而非差分隐私基线为0.76-0.99。FERRET-2由于裕度较低,显示出更高的泄露(约0.55)。效率:更严格的隐私预算触发更少的符号位,因此FERRET仅使用DPSGD训练时间的19-33%,以及非差分隐私训练时间的34-36%。结论:基于符号位的MI-DP更接近于同时实现隐私、效用和性能这一三重困境的所有三个目标:FERRET训练速度比DPSGD快达5倍,困惑度降低3倍,且仅比非差分隐私基线高1.2倍,同时提供无需添加噪声的、形式化且数学可证明的隐私保证。结果还表明,在某些情况下,掩码1比特更新可以在保护数据的同时,达到与非私有训练相当的效用。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
17+阅读 · 2023年12月4日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员