Federated Learning (FL) is a distributed machine learning setting that requires multiple clients to collaborate on training a model while maintaining data privacy. The unaddressed inherent sparsity in data and models often results in overly dense models and poor generalizability under data and client participation heterogeneity. We propose FL with an L0 constraint on the density of non-zero parameters, achieved through a reparameterization using probabilistic gates and their continuous relaxation: originally proposed for sparsity in centralized machine learning. We show that the objective for L0 constrained stochastic minimization naturally arises from an entropy maximization problem of the stochastic gates and propose an algorithm based on federated stochastic gradient descent for distributed learning. We demonstrate that the target density (rho) of parameters can be achieved in FL, under data and client participation heterogeneity, with minimal loss in statistical performance for linear and non-linear models: Linear regression (LR), Logistic regression (LG), Softmax multi-class classification (MC), Multi-label classification with logistic units (MLC), Convolution Neural Network (CNN) for multi-class classification (MC). We compare the results with a magnitude pruning-based thresholding algorithm for sparsity in FL. Experiments on synthetic data with target density down to rho = 0.05 and publicly available RCV1, MNIST, and EMNIST datasets with target density down to rho = 0.005 demonstrate that our approach is communication-efficient and consistently better in statistical performance.


翻译:联邦学习(FL)是一种分布式机器学习范式,要求多个客户端在保持数据隐私的前提下协作训练模型。数据和模型中未被处理的固有稀疏性,通常在数据和客户端参与异构的情况下,导致模型过于稠密且泛化能力较差。我们提出了一种对非零参数密度施加L0约束的联邦学习方法,该方法通过概率门及其连续松弛的重参数化实现——该技术最初是为集中式机器学习中的稀疏性而提出的。我们证明了L0约束随机最小化的目标函数自然地源于随机门的熵最大化问题,并提出了一种基于联邦随机梯度下降的分布式学习算法。我们证明,在数据和客户端参与异构的情况下,线性与非线性模型——包括线性回归(LR)、逻辑回归(LG)、Softmax多分类(MC)、基于逻辑单元的多标签分类(MLC)以及用于多分类的卷积神经网络(CNN)——均能在达到目标参数密度(ρ)的同时,保持统计性能损失最小。我们将结果与一种基于幅度剪枝的阈值算法在联邦学习稀疏化任务上进行了比较。在目标密度低至ρ=0.05的合成数据,以及目标密度低至ρ=0.005的公开数据集RCV1、MNIST和EMNIST上的实验表明,我们的方法具有通信高效性,并且在统计性能上持续更优。

0
下载
关闭预览

相关内容

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习
专知会员服务
17+阅读 · 2022年6月10日
IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
专知会员服务
36+阅读 · 2021年7月9日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关VIP内容
【ICML2022】Sharp-MAML:锐度感知的模型无关元学习
专知会员服务
17+阅读 · 2022年6月10日
IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
专知会员服务
36+阅读 · 2021年7月9日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员