We study the linear contextual bandit problem in the presence of adversarial corruption, where the interaction between the player and a possibly infinite decision set is contaminated by an adversary that can corrupt the reward up to a corruption level $C$ measured by the sum of the largest alteration on rewards in each round. We present a variance-aware algorithm that is adaptive to the level of adversarial contamination $C$. The key algorithmic design includes (1) a multi-level partition scheme of the observed data, (2) a cascade of confidence sets that are adaptive to the level of the corruption, and (3) a variance-aware confidence set construction that can take advantage of low-variance reward. We further prove that the regret of the proposed algorithm is $\tilde{O}(C^2d\sqrt{\sum_{t = 1}^T \sigma_t^2} + C^2R\sqrt{dT})$, where $d$ is the dimension of context vectors, $T$ is the number of rounds, $R$ is the range of noise and $\sigma_t^2,t=1\ldots,T$ are the variances of instantaneous reward. We also prove a gap-dependent regret bound for the proposed algorithm, which is instance-dependent and thus leads to better performance on good practical instances. To the best of our knowledge, this is the first variance-aware corruption-robust algorithm for contextual bandits. Experiments on synthetic data corroborate our theory.


翻译:在对抗性腐败的情况下,我们研究了线性背景土匪问题,在对抗性腐败的情况下,玩家之间的相互作用和可能无限的决定组合会受到对手的污染,而对手可能会腐蚀奖励最高至每轮最大收益变化的总和所测量的腐败金额。我们提出了一种适应敌对性污染水平的差别认知算法。关键算法设计包括:(1) 观测数据的多层次分割计划,(2) 适应腐败程度的连锁信任套件,(3) 差异认知套件能够利用低变差奖励来建立差异认知套件。我们进一步证明,拟议算法的遗憾是$\tilde{O}(C2d\sqrt\sum_sump}t=1\T\sgma_t}+C2R\sqrt{d{d}。关键算法设计包括:(1) 多层次的观察数据分割计划,(2) 美元是适应于腐败程度的顶层, $Taxx是轮数, $R$是噪音和$\sqrima_t_brial2,t=1\=ldalott=t

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
已删除
将门创投
4+阅读 · 2019年6月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Arxiv
0+阅读 · 2021年12月22日
Arxiv
0+阅读 · 2021年12月22日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
已删除
将门创投
4+阅读 · 2019年6月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
相关论文
Arxiv
0+阅读 · 2021年12月22日
Arxiv
0+阅读 · 2021年12月22日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
7+阅读 · 2018年6月8日
Top
微信扫码咨询专知VIP会员