We consider a finite-armed structured bandit problem in which mean rewards of different arms are known functions of a common hidden parameter $\theta^*$. Since we do not place any restrictions of these functions, the problem setting subsumes several previously studied frameworks that assume linear or invertible reward functions. We propose a novel approach to gradually estimate the hidden $\theta^*$ and use the estimate together with the mean reward functions to substantially reduce exploration of sub-optimal arms. This approach enables us to fundamentally generalize any classic bandit algorithm including UCB and Thompson Sampling to the structured bandit setting. We prove via regret analysis that our proposed UCB-C algorithm (structured bandit versions of UCB) pulls only a subset of the sub-optimal arms $O(\log T)$ times while the other sub-optimal arms (referred to as non-competitive arms) are pulled $O(1)$ times. As a result, in cases where all sub-optimal arms are non-competitive, which can happen in many practical scenarios, the proposed algorithms achieve bounded regret. We also conduct simulations on the Movielens recommendations dataset to demonstrate the improvement of the proposed algorithms over existing structured bandit algorithms.


翻译:我们考虑到一个有限且结构化的匪徒问题,即不同武器的平均报酬是已知的共同隐藏参数($\theta ⁇ $$)的已知功能。由于我们没有对这些功能作出任何限制,问题设置将先前研究过的几个承担线性或不可逆奖赏功能的框架相加。我们提出一种新的办法,逐步估计隐藏的美元美元,并同时使用估计和平均奖赏功能来大幅度减少亚最佳武器勘探。这一办法使我们能够从根本上将任何典型的匪徒算法,包括UCB和Thompson抽样算法,推广到结构化的土匪环境。我们通过遗憾分析证明,我们提议的UCB-C算法(UCB的结构性匪帮化版本)只抽取了亚最佳武器($O(\log T)的一小部分,而其他亚最佳武器(称为非竞争性武器)被拉出1美元。因此,在所有亚最佳武器不具有竞争力的情况下,如果所有拟议的算法在许多实际假设中都可能发生,那么拟议的算法就会实现约束式的遗憾。我们还对结构化的算法进行了模拟,以便模拟地改进现有的制片动。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年12月18日
专知会员服务
51+阅读 · 2020年12月14日
最新《高级算法》Advanced Algorithms,176页pdf
专知会员服务
92+阅读 · 2020年10月22日
【经典书】算法C语言实现,Algorithms in C. 672页pdf
专知会员服务
82+阅读 · 2020年8月13日
因果图,Causal Graphs,52页ppt
专知会员服务
249+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年3月29日
Approximate GCD in Lagrange bases
Arxiv
0+阅读 · 2021年3月25日
Arxiv
0+阅读 · 2021年3月25日
A Modern Introduction to Online Learning
Arxiv
21+阅读 · 2019年12月31日
VIP会员
相关VIP内容
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员