We study the corrupted bandit problem, i.e. a stochastic multi-armed bandit problem with $k$ unknown reward distributions, which are heavy-tailed and corrupted by a history-independent adversary or Nature. To be specific, the reward obtained by playing an arm comes from corresponding heavy-tailed reward distribution with probability $1-\varepsilon \in (0.5,1]$ and an arbitrary corruption distribution of unbounded support with probability $\varepsilon \in [0,0.5)$. First, we provide $\textit{a problem-dependent lower bound on the regret}$ of any corrupted bandit algorithm. The lower bounds indicate that the corrupted bandit problem is harder than the classical stochastic bandit problem with sub-Gaussian or heavy-tail rewards. Following that, we propose a novel UCB-type algorithm for corrupted bandits, namely HubUCB, that builds on Huber's estimator for robust mean estimation. Leveraging a novel concentration inequality of Huber's estimator, we prove that HubUCB achieves a near-optimal regret upper bound. Since computing Huber's estimator has quadratic complexity, we further introduce a sequential version of Huber's estimator that exhibits linear complexity. We leverage this sequential estimator to design SeqHubUCB that enjoys similar regret guarantees while reducing the computational burden. Finally, we experimentally illustrate the efficiency of HubUCB and SeqHubUCB in solving corrupted bandits for different reward distributions and different levels of corruptions.


翻译:自然损坏的赌博机问题:遗憾的下限和鲁棒乐观算法 我们研究了被自然损坏的赌博机问题,即具有$k$个未知奖励分布的随机多臂赌博机问题,这些奖励分布呈重尾分布。奖励由相应的重尾奖励分布以$1-\varepsilon\in(0.5,1]$的概率和任意的污染分布以$\varepsilon\in[0,0.5)$的概率给出。首先,我们提供了任何损坏赌博机算法的遗憾下限。这些下界表明,损坏赌博机问题比具有亚高斯或重尾奖励的经典随机赌博机问题更难。接下来,我们提出了一种新型的损坏赌博机UCB算法,即HubUCB,它建立在Huber的鲁棒均值估计上。利用Huber估计的新的集中不等式,我们证明了HubUCB能够获得几乎最优的遗憾上限。由于计算Huber估计具有二次复杂度,我们进一步介绍了一个连续的版本,该版本具有线性的复杂度。我们利用这个连续的估计来设计SeqHubUCB,它具有类似的遗憾保证,同时减少了计算负担。最后,我们实验室演示了HubUCB和SeqHubUCB在解决不同奖励分布和不同污染水平的损坏赌博机方面的效率。

0
下载
关闭预览

相关内容

【ICML2023】序列反事实风险最小化
专知会员服务
18+阅读 · 2023年5月1日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
52+阅读 · 2022年11月2日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
19+阅读 · 2021年10月24日
专知会员服务
40+阅读 · 2021年2月12日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
专知会员服务
61+阅读 · 2020年3月4日
一些关于随机矩阵的算法
PaperWeekly
1+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
12+阅读 · 2020年8月11日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
【重磅】61篇NIPS2019深度强化学习论文及部分解读
机器学习算法与Python学习
10+阅读 · 2019年9月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月12日
Arxiv
0+阅读 · 2023年5月12日
Arxiv
0+阅读 · 2023年5月10日
VIP会员
相关VIP内容
【ICML2023】序列反事实风险最小化
专知会员服务
18+阅读 · 2023年5月1日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
52+阅读 · 2022年11月2日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
19+阅读 · 2021年10月24日
专知会员服务
40+阅读 · 2021年2月12日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
专知会员服务
61+阅读 · 2020年3月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员