机器学习模型通常训练存储在通过网络连接的多台计算机上的数据。由于网络的稳定性,单台中央枢纽计算机处理和传播信息通常是不可行的。克服这一瓶颈的解决方案是考虑类似于点对点和自组织无线网络的去中心化网络。也就是说,计算机在同一时间与其他计算机的一个子集通信,然后信息自然地通过网络传播。
本文研究了在这种分散框架下产生的模型的统计性能。通过将计算机网络建模为图中的代理,我们研究了两种不同的统计设置:同质性,即存储在计算机之间的数据遵循相同的分布;异质性,当分布不同时。在齐次环境下,受经验风险最小化问题的激励,我们考虑了一个简单分散算法的学习性能:分布式梯度下降。具体地说,我们证明了在非参数回归的情况下,可以通过隐式正则化和计算运行时的线性加速来保证学习性能,前提是计算机有足够的数据量。相比之下,之前的工作主要是通过更通用的共识优化框架来关注优化性能,这并没有对幕后更精细的统计结构进行编码。更准确地说,我们演示了这种结构可以用于以下两方面:允许通过算法参数隐式地控制模型复杂性; 并且由于统计集中的现象,代理所持有的信息可以是相似的。在非均相情况下,考虑了由高光谱解混引起的设置。具体来说,我们考虑同时恢复稀疏信号(与代理相关)的集合,这些稀疏信号以反映网络拓扑的方式相关。简而言之,底层分布中的差异是通过反映网络的总变异惩罚来编码的。当信号充分相关时,该方法比group lasso风格的方法节省了样本复杂度。
https://ora.ox.ac.uk/objects/uuid:40f1cd4d-4f43-46cf-a633-8301a6383e73
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“M181” 就可以获取《【牛津大学博士论文】多代理学习,Multi-Agent Learning,181页pdf》专知下载链接