We consider Bayesian best arm identification in the multi-armed bandit problem. Assuming certain continuity conditions of the prior, we characterize the rate of the Bayesian simple regret. Differing from Bayesian regret minimization (Lai, 1987), the leading factor in Bayesian simple regret derives from the region where the gap between optimal and sub-optimal arms is smaller than $\sqrt{\frac{\log T}{T}}$. We propose a simple and easy-to-compute algorithm with its leading factor matches with the lower bound up to a constant factor; simulation results support our theoretical findings.


翻译:我们考虑的是多武装土匪问题中的巴伊西亚最好的手臂识别。 假设先前的某些连续条件, 我们确定巴伊西亚人的简单遗憾率。 不同于巴伊西亚人的遗憾最小化( Lai, 1987年), 巴伊西亚的简单遗憾率主要来自一个地区, 该地区最佳和次最佳武器之间的差距小于$\sqrt=frac=log T ⁇ T ⁇ Q ⁇ $。 我们提出一个简单和容易计算的算法, 其主要因素与较低因素相匹配, 与一个不变因素相匹配; 模拟结果支持我们的理论结论。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
“CVPR 2020 接受论文列表 1470篇论文都在这了
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
7+阅读 · 2018年8月28日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
时间序列算法ARIMA介绍
凡人机器学习
5+阅读 · 2017年6月2日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关资讯
“CVPR 2020 接受论文列表 1470篇论文都在这了
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
7+阅读 · 2018年8月28日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
时间序列算法ARIMA介绍
凡人机器学习
5+阅读 · 2017年6月2日
Top
微信扫码咨询专知VIP会员