We propose Multi-Level Local SGD, a distributed gradient method for learning a smooth, non-convex objective in a heterogeneous multi-level network. Our network model consists of a set of disjoint sub-networks, with a single hub and multiple worker nodes; further, worker nodes may have different operating rates. The hubs exchange information with one another via a connected, but not necessarily complete communication network. In our algorithm, sub-networks execute a distributed SGD algorithm, using a hub-and-spoke paradigm, and the hubs periodically average their models with neighboring hubs. We first provide a unified mathematical framework that describes the Multi-Level Local SGD algorithm. We then present a theoretical analysis of the algorithm; our analysis shows the dependence of the convergence error on the worker node heterogeneity, hub network topology, and the number of local, sub-network, and global iterations. We back up our theoretical results via simulation-based experiments using both convex and non-convex objectives.
翻译:我们提出多层次本地 SGD, 这是一种分布式梯度方法, 用于在一个多层次的多层次网络中学习一个平滑的非混凝土目标。 我们的网络模型由一组脱节的子网络组成, 包括一个单一的中枢和多个工人节点; 此外, 工人节点可能具有不同的操作率。 中心通过连接, 但不一定是完整的通信网络相互交流信息。 在我们的算法中, 子网络使用中标模式, 执行分布式 SGD 算法, 并且中心定期将模型与相邻中心进行平均。 我们首先提供一个统一的数学框架, 描述多层次本地 SGD 算法 。 我们然后对算法进行理论分析; 我们的分析显示了趋同错误对工人节点、 中枢网络结构的依赖性, 以及本地、 子网络和全球相联体的数量。 我们通过使用 convex 和非 convex 目标的模拟实验来支持我们的理论结果 。