One of the key drivers of complexity in the classical (stochastic) multi-armed bandit (MAB) problem is the difference between mean rewards in the top two arms, also known as the instance gap. The celebrated Upper Confidence Bound (UCB) policy is among the simplest optimism-based MAB algorithms that naturally adapts to this gap: for a horizon of play n, it achieves optimal O(log n) regret in instances with "large" gaps, and a near-optimal O(\sqrt{n log n}) minimax regret when the gap can be arbitrarily "small." This paper provides new results on the arm-sampling behavior of UCB, leading to several important insights. Among these, it is shown that arm-sampling rates under UCB are asymptotically deterministic, regardless of the problem complexity. This discovery facilitates new sharp asymptotics and a novel alternative proof for the O(\sqrt{n log n}) minimax regret of UCB. Furthermore, the paper also provides the first complete process-level characterization of the MAB problem under UCB in the conventional diffusion scaling. Among other things, the "small" gap worst-case lens adopted in this paper also reveals profound distinctions between the behavior of UCB and Thompson Sampling, such as an "incomplete learning" phenomenon characteristic of the latter.


翻译:古典(Stochistic)多武装匪徒(MAB)问题复杂的关键驱动因素之一是,顶端两臂的平均回报(也称为例差)之间的差别。值得庆祝的高信任(UB)政策是自然适应这一差距的最简单、基于乐观的MAB算法之一:对于游戏的地平线来说,它实现了最佳的O(log n)遗憾,在“巨大的”差距和“接近最佳的O(sqrt{nlog n})微麦克斯后悔时,差距可能是任意的“小”的。本文为UCB的手臂抽取行为提供了新的结果,并引出了一些重要的见解。其中显示,UCB下的手臂抽取率是非象征性的,尽管问题复杂。这一发现为O(sqrt{nlog n}微缩鼠标提供了一个新的替代证据。 此外,该文件还提供了第一个完整的过程层面的UCB(UCB)最深层的图像分析,也就是“在常规的Sam-CB下,最深层的磁度表现,在常规-CB中,其最深层的“最深层的,在常规-CBAbrocal之间,在常规的,最深层的,最深层的、最深层的、最深层的、最深层的、最深层的,在UCB行为学上,在UCB中,也在UCB中,在UCB之间,在常规的“最深的“最深的“最深的“最深的”的“最深层的”之间,在常规的“最深层的”的”的”的“最难的“最深层的“最深层的”的“最深层次的”的“最深的”现象”的“最深层的“最深层的”现象”的“最深的”现象”现象”的“最深的“最难的“最难的”的”的“最难的“最难的”的“最难的”现象的“最难的”解释性”解释性”之间,在常规的“最难的“最难的“最难的“最难”的“最难的“最难的”现象”的“最难”现象”现象”的“最难的

0
下载
关闭预览

相关内容

专知会员服务
27+阅读 · 2021年5月2日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
123+阅读 · 2020年9月8日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
lightgbm algorithm case of kaggle(上)
R语言中文社区
8+阅读 · 2018年3月20日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Arxiv
0+阅读 · 2021年7月28日
Arxiv
0+阅读 · 2021年7月28日
VIP会员
相关VIP内容
专知会员服务
27+阅读 · 2021年5月2日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
123+阅读 · 2020年9月8日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
lightgbm algorithm case of kaggle(上)
R语言中文社区
8+阅读 · 2018年3月20日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Top
微信扫码咨询专知VIP会员