We consider a multi-agent multi-armed bandit setting in which $n$ honest agents collaborate over a network to minimize regret but $m$ malicious agents can disrupt learning arbitrarily. Assuming the network is the complete graph, existing algorithms incur $O( (m + K/n) \log (T) / \Delta )$ regret in this setting, where $K$ is the number of arms and $\Delta$ is the arm gap. For $m \ll K$, this improves over the single-agent baseline regret of $O(K\log(T)/\Delta)$. In this work, we show the situation is murkier beyond the case of a complete graph. In particular, we prove that if the state-of-the-art algorithm is used on the undirected line graph, honest agents can suffer (nearly) linear regret until time is doubly exponential in $K$ and $n$. In light of this negative result, we propose a new algorithm for which the $i$-th agent has regret $O( ( d_{\text{mal}}(i) + K/n) \log(T)/\Delta)$ on any connected and undirected graph, where $d_{\text{mal}}(i)$ is the number of $i$'s neighbors who are malicious. Thus, we generalize existing regret bounds beyond the complete graph (where $d_{\text{mal}}(i) = m$), and show the effect of malicious agents is entirely local (in the sense that only the $d_{\text{mal}}(i)$ malicious agents directly connected to $i$ affect its long-term regret).
翻译:我们考虑的是多试剂多武装土匪设置, 美元诚实的代理商在网络上合作, 以最大限度地减少遗憾, 但美元恶意的代理商可以任意干扰学习。 如果网络是完整的图表, 现有的算法在这种设置中产生美元( (m+ K/n)\log (T) /\ Delta) 的遗憾, 美元是武器数量, 美元就是武器数量, 美元就是武器差额 。 对于 $\ ll K$, 这比 美元( K\log (T) /\ Delta) 的单一代理商基准质悔( $( K) 美元( 美元) / 美元( Delta) 。 在这项工作中, 我们显示的情况是, 最先进的算法的运算法在未定向线图上, 诚实的代理商可能会遭受( 几乎) 线性遗憾, 直到时间以美元和美元加速指数化。 根据这一负面结果, 我们提议一种新的算法, 美元- 美元代理商对 美元( d_ral_ral) 美元( d) 美元直接连接任何K/ true (rum) 和 Kx 任何K- d) 美元(late) 美元的 的 的代理商在总的 和 K_ (d) 美元(d) 美元(d) 美元(d) 美元(d) 美元(d) 美元) 美元) 任何K_) 的 或任何Kx(col