We consider a stochastic bandit problem with a possibly infinite number of arms. We write $p^*$ for the proportion of optimal arms and $\Delta$ for the minimal mean-gap between optimal and sub-optimal arms. We characterize the optimal learning rates both in the cumulative regret setting, and in the best-arm identification setting in terms of the problem parameters $T$ (the budget), $p^*$ and $\Delta$. For the objective of minimizing the cumulative regret, we provide a lower bound of order $\Omega(\log(T)/(p^*\Delta))$ and a UCB-style algorithm with matching upper bound up to a factor of $\log(1/\Delta)$. Our algorithm needs $p^*$ to calibrate its parameters, and we prove that this knowledge is necessary, since adapting to $p^*$ in this setting is impossible. For best-arm identification we also provide a lower bound of order $\Omega(\exp(-cT\Delta^2p^*))$ on the probability of outputting a sub-optimal arm where $c>0$ is an absolute constant. We also provide an elimination algorithm with an upper bound matching the lower bound up to a factor of order $\log(1/\Delta)$ in the exponential, and that does not need $p^*$ or $\Delta$ as parameter.


翻译:我们考虑的是可能无限数量的军火的沙袋问题。 我们为最佳武器的比例和最佳和亚最佳武器之间的最低平均比例写$p $ 美元,为最优和亚最佳武器之间的最小平均比例写$Delta$。 我们从问题参数的累计遗憾设置和最佳武器识别中,从问题参数的角度,我们考虑的是: $T(预算)、 $p 美元和$美元。为了最大限度地减少累积的遗憾,我们提供了较低的订单(Omega (glog(T)/(p ⁇ Delelta)) 美元和UCB式的运算法,与上捆绑定的美元($)相匹配。 我们的算法需要$p 美元来校准参数,我们证明这种知识是必要的,因为在这个设置中调整到$%美元是不可能的。 为了尽可能低的识别,我们还提供较低的订单,在以Omega(\\\\T\Delta2p$) 美元为基价, 而不是以Oral- comma a commain a stal deal as a pal asion.

0
下载
关闭预览

相关内容

少即是多?非参数语言模型,68页ppt
专知会员服务
23+阅读 · 2020年11月22日
专知会员服务
61+阅读 · 2020年3月4日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
机器学习线性代数速查
机器学习研究会
19+阅读 · 2018年2月25日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年5月16日
Arxiv
0+阅读 · 2021年5月14日
Arxiv
3+阅读 · 2018年10月18日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
机器学习线性代数速查
机器学习研究会
19+阅读 · 2018年2月25日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员