We study the Pareto frontier of two archetypal objectives in stochastic bandits, namely, regret minimization (RM) and best arm identification (BAI) with a fixed horizon. It is folklore that the balance between exploitation and exploration is crucial for both RM and BAI, but exploration is more critical in achieving the optimal performance for the latter objective. To make this precise, we first design and analyze the BoBW-lil'UCB$({\gamma})$ algorithm, which achieves order-wise optimal performance for RM or BAI under different values of ${\gamma}$. Complementarily, we show that no algorithm can simultaneously perform optimally for both the RM and BAI objectives. More precisely, we establish non-trivial lower bounds on the regret achievable by any algorithm with a given BAI failure probability. This analysis shows that in some regimes BoBW-lil'UCB$({\gamma})$ achieves Pareto-optimality up to constant or small terms. Numerical experiments further demonstrate that when applied to difficult instances, BoBW-lil'UCB outperforms a close competitor UCB$_{\alpha}$ (Degenne et al., 2019), which is designed for RM and BAI with a fixed confidence.


翻译:我们研究了两大目标的Pareto边界,即最小化(RM)和最佳武器识别(BAI),具有固定的地平线。关于开采和勘探之间的平衡对于RM和BAI都至关重要,但勘探对于实现后一目标的最佳性能更为关键,我们研究的是Pareto边界线的边界线,我们首先设计和分析BoBW-lil'UB$(gamma})的算法,这种算法在美元的不同值下,使RM或BAI达到最优性能的一致。此外,我们表明,没有一种算法能够同时为RM和BAI的目标同时发挥最佳性能。更确切地说,我们对BOW-IL'UCB$(sgamma})在任何算法上都能实现的最遗憾程度的边缘线。我们的分析表明,在某些制度下,BBW-li'UCB$(s)中,在固定值或小值条件下,实现Preto-opyal 实验进一步证明,当应用困难实例时,BW-l'IAIAI'B(request)和ABCB)是固定的20CBCBCBCBRB。和固定和固定和正成型。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
14+阅读 · 2021年5月21日
专知会员服务
22+阅读 · 2021年4月10日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年12月14日
Arxiv
0+阅读 · 2021年12月13日
Arxiv
0+阅读 · 2021年12月13日
Arxiv
0+阅读 · 2021年12月12日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
14+阅读 · 2021年5月21日
专知会员服务
22+阅读 · 2021年4月10日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员