In this paper we study a multi-arm bandit problem in which the quality of each arm is measured by the Conditional Value at Risk (CVaR) at some level alpha of the reward distribution. While existing works in this setting mainly focus on Upper Confidence Bound algorithms, we introduce a new Thompson Sampling approach for CVaR bandits on bounded rewards that is flexible enough to solve a variety of problems grounded on physical resources. Building on a recent work by Riou & Honda (2020), we introduce B-CVTS for continuous bounded rewards and M-CVTS for multinomial distributions. On the theoretical side, we provide a non-trivial extension of their analysis that enables to theoretically bound their CVaR regret minimization performance. Strikingly, our results show that these strategies are the first to provably achieve asymptotic optimality in CVaR bandits, matching the corresponding asymptotic lower bounds for this setting. Further, we illustrate empirically the benefit of Thompson Sampling approaches both in a realistic environment simulating a use-case in agriculture and on various synthetic examples.


翻译:在本文中,我们研究了一个多臂强盗问题,其中每只手臂的质量都通过风险条件值(CVaR)在某种水平的奖赏分配中进行测量。虽然在这一背景下现有的工作主要侧重于高信任率算法,但我们为CVaR匪徒采用了一种新的Thompson抽样方法,其约束性奖赏足够灵活,足以解决基于物质资源的各种问题。根据Riou & Honda(20202020年)最近的一项工作,我们引入B-CVTS,以持续受约束的奖赏和M-CVTS,用于多种名牌分配。在理论上,我们提供了非三重扩展的分析,以便能够在理论上约束其CVaR最低程度的绩效。 令人惊讶的是,我们的结果表明,这些战略是第一个在CVaR匪徒中实现无症状的最佳性,与这一环境相应的微调较低界限相匹配。此外,我们从经验上展示了Thompson Sampling方法在现实环境中在模拟农业和各种合成案例中的好处。

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年5月21日
专知会员服务
50+阅读 · 2020年12月14日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
ICLR 2020 高质量强化学习论文汇总
极市平台
12+阅读 · 2019年11月11日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年9月27日
Entropic estimation of optimal transport maps
Arxiv
0+阅读 · 2021年9月24日
Arxiv
0+阅读 · 2021年9月23日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年5月21日
专知会员服务
50+阅读 · 2020年12月14日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
Top
微信扫码咨询专知VIP会员