We study combinatorial multi-armed bandit with probabilistically triggered arms (CMAB-T) and semi-bandit feedback. We resolve a serious issue in the prior CMAB-T studies where the regret bounds contain a possibly exponentially large factor of $1/p^*$, where $p^*$ is the minimum positive probability that an arm is triggered by any action. We address this issue by introducing a triggering probability modulated (TPM) bounded smoothness condition into the general CMAB-T framework, and show that many applications such as influence maximization bandit and combinatorial cascading bandit satisfy this TPM condition. As a result, we completely remove the factor of $1/p^*$ from the regret bounds, achieving significantly better regret bounds for influence maximization and cascading bandits than before. Finally, we provide lower bound results showing that the factor $1/p^*$ is unavoidable for general CMAB-T problems, suggesting that the TPM condition is crucial in removing this factor.


翻译:我们用概率触发武器(CMAB-T)和半土匪回馈方法研究集束多武装土匪,在此前的CMAB-T研究中解决了一个严重问题,在这些研究中,遗憾界限中可能含有1/p ⁇ 美元这一指数性大系数,而美元是任何行动触发一个手臂的最低正概率。我们通过在一般的CMAB-T框架中引入触发概率调制(TPM)约束性平滑条件来解决这一问题,并表明影响最大化土匪和组合式土匪等许多应用方法都满足了TPM条件。结果,我们完全消除了1/p ⁇ 美元在遗憾界限中的系数,从而大大改善了影响最大化和诱导匪的遗憾界限。最后,我们提供了较低的约束结果,表明系数1/p ⁇ 是一般的CMAB-T问题不可避免的,表明TP条件对于消除这一因素至关重要。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年4月2日
专知会员服务
50+阅读 · 2020年12月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
已删除
将门创投
3+阅读 · 2019年9月4日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
0+阅读 · 2021年8月2日
Arxiv
0+阅读 · 2021年7月31日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年9月4日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员