In this paper, we study an interesting combination of sleeping and combinatorial stochastic bandits. In the mixed model studied here, at each discrete time instant, an arbitrary \emph{availability set} is generated from a fixed set of \emph{base} arms. An algorithm can select a subset of arms from the \emph{availability set} (sleeping bandits) and receive the corresponding reward along with semi-bandit feedback (combinatorial bandits). We adapt the well-known CUCB algorithm in the sleeping combinatorial bandits setting and refer to it as \CSUCB. We prove -- under mild smoothness conditions -- that the \CSUCB\ algorithm achieves an $O(\log (T))$ instance-dependent regret guarantee. We further prove that (i) when the range of the rewards is bounded, the regret guarantee of \CSUCB\ algorithm is $O(\sqrt{T \log (T)})$ and (ii) the instance-independent regret is $O(\sqrt[3]{T^2 \log(T)})$ in a general setting. Our results are quite general and hold under general environments -- such as non-additive reward functions, volatile arm availability, a variable number of base-arms to be pulled -- arising in practical applications. We validate the proven theoretical guarantees through experiments.
翻译:在本文中,我们研究了睡眠和组合式搜捕强盗的有趣组合。在本文研究的混合模型中,在每个离散时间即刻,一个任意的 emph{splence set} 是由固定的 \ emph{base} 武器制成的。一个算法可以从\ emph{prey set} (睡觉的强盗) 中选择一组武器,并获得相应的奖赏和半腰带反馈(combinatory 强盗) 。我们在睡眠组合强盗设置中调整了众所周知的CUCB算法,并将其称为\ CCB。我们证明 -- 在温和的环境下 -- 在温和的状态条件下,\ CSUCB\算法实现了一个$(glog (T) ), 以实例为基础的奖赏范围,\ CSUCCCB\算法的保证是 普通的、 常规的、 常规的、 常规的、 常规的、 常规的、 常规的、 的、 常规的、 常规的、 常规的、 常规的、 常规的、 常规的、 等的、 常规的、 常规的、 等的、 等的、 等的、 常规的、 等的、 等的、 等的、 等的、 等的、 等的、 常规的、 等的、 等的、 等的、 的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、