We study the stochastic multi-player multi-armed bandit problem. In this problem, $m$ players cooperate to maximize their total reward from $K > m$ arms. However the players cannot communicate and are penalized (e.g. receive no reward) if they pull the same arm at the same time. We ask whether it is possible to obtain optimal instance-dependent regret $\tilde{O}(1/\Delta)$ where $\Delta$ is the gap between the $m$-th and $m+1$-st best arms. Such guarantees were recently achieved in a model allowing the players to implicitly communicate through intentional collisions. Surprisingly, we show that with no communication at all, such guarantees are not achievable. In fact, obtaining the optimal $\tilde{O}(1/\Delta)$ regret for some values of $\Delta$ necessarily implies strictly sub-optimal regret in other regimes. Our main result is a complete characterization of the Pareto optimal instance-dependent trade-offs that are possible with no communication. Our algorithm generalizes that of Bubeck, Budzinski, and the second author. As there, our algorithm succeeds even when feedback upon collision can be corrupted by an adaptive adversary, thanks to a strong no-collision property. Our lower bound is based on topological obstructions at multiple scales and is completely new.
翻译:我们研究的是多玩家多武装盗匪问题。 在这个问题中, 美元玩家合作, 以最大限度地从$K > m $m 的军火中获取全部报酬。 但是, 如果玩家同时拉起同一个手臂, 我们无法沟通, 并且受到惩罚( 比如得不到任何报酬 ) 。 我们问, 是否有可能获得最佳的依靠实例的遗憾 $\ tilde{O}( 1/\\ Delta) $\\ Delta$, 其中, $\ Delta$ 意味着其他政权的绝对次于最佳的遗憾。 我们的主要结果就是完整地描述Pareto 最佳依赖实例的交易, 而这种交易是无法通过故意的碰撞来进行暗中交流的。 令人惊讶的是, 我们通过完全的沟通来证明这种保证是无法实现的。 事实上, 获得最佳的 $tilde{O}( 1/\\\\ Delta)$( $ delta) 的遗憾必然意味着其他政权的绝对次于最佳的遗憾。 我们的主要结果就是完全地描述出新的、 最佳依赖实例交易的权衡, 而这种交易是无法通过强烈的交流实现的交流。 。 我们的整个算算法是, 我们的上的一个基础的上, 上 的上 的上 的 的上 的 的上 的上 的上 的 的上 的 的上 的上 的上 的上 的 的 的 的, 的 上 的 上 的 上 上 的 上 的 上 上 的 上 的, 的 上 的 的 的 上 的 的 的 的 的 上 的 的 的 的 的 的 的 的 上 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 上 的 的 的 的 的 的 的 上 上 上 上 上 上 上 上 上 上 上 上 上 上 上 上 上 上 上 上 上 上 上 上