In this paper, we study an interesting combination of sleeping and combinatorial stochastic bandits. In the mixed model studied here, at each discrete time instant, an arbitrary \emph{availability set} is generated from a fixed set of \emph{base} arms. An algorithm can select a subset of arms from the \emph{availability set} (sleeping bandits) and receive the corresponding reward along with semi-bandit feedback (combinatorial bandits). We adapt the well-known CUCB algorithm in the sleeping combinatorial bandits setting and refer to it as \CSUCB. We prove -- under mild smoothness conditions -- that the \CSUCB\ algorithm achieves an $O(\log (T))$ instance-dependent regret guarantee. We further prove that (i) when the range of the rewards is bounded, the regret guarantee of \CSUCB\ algorithm is $O(\sqrt{T \log (T)})$ and (ii) the instance-independent regret is $O(\sqrt[3]{T^2 \log(T)})$ in a general setting. Our results are quite general and hold under general environments -- such as non-additive reward functions, volatile arm availability, a variable number of base-arms to be pulled -- arising in practical applications. We validate the proven theoretical guarantees through experiments.


翻译:在本文中,我们研究了睡眠和组合式搜捕强盗的有趣组合。在本文研究的混合模型中,在每个离散时间即刻,一个任意的 emph{splence set} 是由固定的 \ emph{base} 武器制成的。一个算法可以从\ emph{prey set} (睡觉的强盗) 中选择一组武器,并获得相应的奖赏和半腰带反馈(combinatory 强盗) 。我们在睡眠组合强盗设置中调整了众所周知的CUCB算法,并将其称为\ CCB。我们证明 -- 在温和的环境下 -- 在温和的状态条件下,\ CSUCB\算法实现了一个$(glog (T) ), 以实例为基础的奖赏范围,\ CSUCCCB\算法的保证是 普通的、 常规的、 常规的、 常规的、 常规的、 常规的、 常规的、 的、 常规的、 常规的、 常规的、 常规的、 常规的、 常规的、 等的、 常规的、 常规的、 等的、 等的、 等的、 常规的、 等的、 等的、 等的、 等的、 等的、 等的、 常规的、 等的、 等的、 等的、 的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、 等的、

0
下载
关闭预览

相关内容

机器学习组合优化
专知会员服务
108+阅读 · 2021年2月16日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
123+阅读 · 2020年9月8日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
6+阅读 · 2019年11月21日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Bandits with Partially Observable Confounded Data
Arxiv
0+阅读 · 2021年8月10日
Arxiv
0+阅读 · 2021年8月10日
Combinatorial Bandits under Strategic Manipulations
Arxiv
0+阅读 · 2021年8月9日
VIP会员
相关VIP内容
机器学习组合优化
专知会员服务
108+阅读 · 2021年2月16日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
123+阅读 · 2020年9月8日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
已删除
将门创投
6+阅读 · 2019年11月21日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员