We propose the first regret-based approach to the Graphical Bilinear Bandits problem, where $n$ agents in a graph play a stochastic bilinear bandit game with each of their neighbors. This setting reveals a combinatorial NP-hard problem that prevents the use of any existing regret-based algorithm in the (bi-)linear bandit literature. In this paper, we fill this gap and present the first regret-based algorithm for graphical bilinear bandits using the principle of optimism in the face of uncertainty. Theoretical analysis of this new method yields an upper bound of $\tilde{O}(\sqrt{T})$ on the $\alpha$-regret and evidences the impact of the graph structure on the rate of convergence. Finally, we show through various experiments the validity of our approach.
翻译:我们建议对图形双线盗匪问题采取第一种基于遗憾的办法。 在这种问题上, 图表中的一美元代理与其每个邻居一起玩一个随机的双线盗匪游戏。 这个设置揭示了一个组合式NP硬性的问题, 防止在( 双线盗匪) 文献中使用任何现有的基于遗憾的算法。 在本文中, 我们填补了这个空白, 并提出了图形双线盗匪的第一个基于遗憾的算法, 使用的是面对不确定性时的乐观原则。 对这一新方法的理论分析显示, 在 $\\ tilde{O} (\\\\\ sqrt{T} $- regret 上方, 并证明了图表结构对趋同率的影响。 最后, 我们通过各种实验来显示我们的方法的有效性 。