State of the art machine learning models are routinely trained on large scale distributed clusters. Crucially, such systems can be compromised when some of the computing devices exhibit abnormal (Byzantine) behavior and return arbitrary results to the parameter server (PS). This behavior may be attributed to a plethora of reasons including system failures and orchestrated attacks. Existing work suggests robust aggregation and/or computational redundancy to alleviate the effect of distorted gradients. However, most of these schemes are ineffective when an adversary knows the task assignment and can judiciously choose the attacked workers to induce maximal damage. Our proposed method Aspis assigns gradient computations to worker nodes using a subset-based assignment which allows for multiple consistency checks on the behavior of a worker node. Examination of the calculated gradients and post-processing (clique-finding in an appropriately constructed graph) by the central node allows for efficient detection and subsequent exclusion of adversaries from the training process. We prove the Byzantine resilience and detection guarantees of Aspis under weak and strong attacks and extensively evaluate the system on various large-scale training scenarios. The main metric for our experiments is the test accuracy for which we demonstrate significant improvement of about 30% compared to many state-of-the-art approaches on the CIFAR-10 dataset. The corresponding reduction of the fraction of corrupted gradients ranges from 16% to 98%.


翻译:艺术机器学习模型的状况是按大规模分布的分类群进行常规培训的。 关键是,当某些计算装置出现异常( Byzantine) 行为,并将任意结果返回参数服务器( PS) 时,这类系统可能会受到损害。 这种行为可能归因于多种原因,包括系统故障和精心策划的袭击。 现有工作表明,为了减轻扭曲梯度的影响,可以进行强有力的聚合和(或)计算冗余。 但是,当对手知道任务分配,并且能够明智地选择受攻击的工人以引起最大损害时,这些办法大多是无效的。 我们提议的Aspis 方法将梯度计算分配给工人节点,使用子化任务,允许对工人节点的行为进行多重一致性检查。 通过中央节点对计算出的梯度和后处理(在适当构造的图表中进行分类调查),可以有效地检测和/或随后将对手排除在培训过程之外。 我们证明,在弱力和强力攻击下,Aspids的抗力和探测保证对各种大规模培训情景进行广泛评估。 我们实验的主要衡量尺度是测试精确度,我们从98- 10 递减幅度的16 级方法,我们显示了98-10 % 递减率的精确级方法。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
已删除
将门创投
8+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
4+阅读 · 2018年3月19日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
已删除
将门创投
8+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员