Decentralized learning over distributed datasets can have significantly different data distributions across the agents. The current state-of-the-art decentralized algorithms mostly assume the data distributions to be Independent and Identically Distributed. This paper focuses on improving decentralized learning over non-IID data. We propose \textit{Neighborhood Gradient Clustering (NGC)}, a novel decentralized learning algorithm that modifies the local gradients of each agent using self- and cross-gradient information. Cross-gradients for a pair of neighboring agents are the derivatives of the model parameters of an agent with respect to the dataset of the other agent. In particular, the proposed method replaces the local gradients of the model with the weighted mean of the self-gradients, model-variant cross-gradients (derivatives of the neighbors' parameters with respect to the local dataset), and data-variant cross-gradients (derivatives of the local model with respect to its neighbors' datasets). The data-variant cross-gradients are aggregated through an additional communication round without breaking the privacy constraints. Further, we present \textit{CompNGC}, a compressed version of \textit{NGC} that reduces the communication overhead by $32 \times$. We theoretically analyze the convergence rate of the proposed algorithm and demonstrate its efficiency over non-IID data sampled from {various vision and language} datasets trained. Our experiments demonstrate that \textit{NGC} and \textit{CompNGC} outperform (by $0-6\%$) the existing SoTA decentralized learning algorithm over non-IID data with significantly less compute and memory requirements. Further, our experiments show that the model-variant cross-gradient information available locally at each agent can improve the performance over non-IID data by $1-35\%$ without additional communication cost.


翻译:基于分布式数据集的去中心化学习可能会在各个节点上存在显著不同的数据分布。目前的去中心化算法大多数假设这些数据是独立同分布的。本文着眼于改进在非独立同分布数据上的去中心化学习。我们提出了一种新颖的去中心化学习算法——邻域梯度聚类(NGC),通过自身和跨梯度信息修改每个代理的本地梯度。对于相邻代理的一对,它们的跨梯度则是指一个代理的模型参数对另一个代理的数据集求导的结果。具体地,我们将模型的局部梯度替换为自身梯度、模型特征的跨梯度(一个代理的参数对于另一个代理的数据集求导的结果)和数据特征的跨梯度(每个代理的模型对于邻居数据集进行求导的结果)按权重平均的结果。聚合数据特征的跨梯度则需要在额外的通信轮次中进行,同时保护隐私。此外,我们还提出了一种名为CompNGC的压缩版本,可以降低通信开销32倍。我们对所提出的算法进行了理论收敛率分析,并在来自多个视觉和语言数据集的非独立同分布数据上验证了其高效性。实验表明,相比于现有的基于非独立同分布数据的去中心化学习算法,NGC和CompNGC在计算和内存需求方面具有更高的性能(提升0-6%)。此外,我们的实验还显示,局部可得的模型特征的跨梯度信息可以在不增加通信成本的情况下,将性能提高1-35%。

0
下载
关闭预览

相关内容

【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
117+阅读 · 2022年4月21日
专知会员服务
14+阅读 · 2021年5月21日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
19+阅读 · 2020年12月9日
【KDD2020】最小方差采样用于图神经网络的快速训练
专知会员服务
27+阅读 · 2020年7月13日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月11日
Arxiv
45+阅读 · 2019年12月20日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员