We consider a many-to-one wireless architecture for federated learning at the network edge, where multiple edge devices collaboratively train a model using local data. The unreliable nature of wireless connectivity, together with constraints in computing resources at edge devices, dictates that the local updates at edge devices should be carefully crafted and compressed to match the wireless communication resources available and should work in concert with the receiver. Thus motivated, we propose SGD-based bandlimited coordinate descent algorithms for such settings. Specifically, for the wireless edge employing over-the-air computing, a common subset of k-coordinates of the gradient updates across edge devices are selected by the receiver in each iteration, and then transmitted simultaneously over k sub-carriers, each experiencing time-varying channel conditions. We characterize the impact of communication error and compression, in terms of the resulting gradient bias and mean squared error, on the convergence of the proposed algorithms. We then study learning-driven communication error minimization via joint optimization of power allocation and learning rates. Our findings reveal that optimal power allocation across different sub-carriers should take into account both the gradient values and channel conditions, thus generalizing the widely used water-filling policy. We also develop sub-optimal distributed solutions amenable to implementation.


翻译:我们考虑在网络边缘建立一个许多到一个无线的联盟学习架构,多边装置在网络边缘合作培训一个模型,使用当地数据。无线连接的不可靠性质,加上边端设备计算资源方面的限制,要求边端装置的本地更新应仔细制作和压缩,以匹配现有的无线通信资源,并与接收者协同工作。因此,我们提出基于SGD的带宽带宽带宽协调这种环境的下行算法。具体地说,对于使用超空计算法的无线边缘而言,每个迭代的接收器选择了跨边端装置梯度更新的公基坐标,然后同时通过 k 分包机传送,每个设备都面临时间变化的频道条件。我们从由此产生的梯度偏差和平均平方差的角度来描述通信错误的影响,然后研究如何通过联合优化权力分配和学习率来尽量减少由学习驱动的通信错误。我们的调查结果显示,不同子容器之间最佳的电源配置应既考虑到梯度值,又同时在 k 子容器上同时传输,然后同时传送,每个设备,每个设备都经历时间变化变化的频道条件,每个频道条件,每个频道条件。我们界定了通信错误的通信错误和压缩错误的影响,因此也广泛使用了通信错误和压缩政策,从而普遍应用了通信错误的影响。

0
下载
关闭预览

相关内容

坐标下降法(coordinate descent)是一种非梯度优化算法。算法在每次迭代中,在当前点处沿一个坐标方向进行一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方向。对于不可拆分的函数而言,算法可能无法在较小的迭代步数中求得最优解。为了加速收敛,可以采用一个适当的坐标系,例如通过主成分分析获得一个坐标间尽可能不相互关联的新坐标系.
【UBC】高级机器学习课程,Advanced Machine Learning
专知会员服务
24+阅读 · 2021年1月26日
【伯克利-Ke Li】学习优化,74页ppt,Learning to Optimize
专知会员服务
40+阅读 · 2020年7月23日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
9+阅读 · 2017年10月17日
Arxiv
27+阅读 · 2020年6月19日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关资讯
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
9+阅读 · 2017年10月17日
Top
微信扫码咨询专知VIP会员