This paper studies bandit algorithms under data poisoning attacks in a bounded reward setting. We consider a strong attacker model in which the attacker can observe both the selected actions and their corresponding rewards, and can contaminate the rewards with additive noise. We show that \emph{any} bandit algorithm with regret $O(\log T)$ can be forced to suffer a regret $\Omega(T)$ with an expected amount of contamination $O(\log T)$. This amount of contamination is also necessary, as we prove that there exists an $O(\log T)$ regret bandit algorithm, specifically the classical UCB, that requires $\Omega(\log T)$ amount of contamination to suffer regret $\Omega(T)$. To combat such poising attacks, our second main contribution is to propose a novel algorithm, Secure-UCB, which uses limited \emph{verification} to access a limited number of uncontaminated rewards. We show that with $O(\log T)$ expected number of verifications, Secure-UCB can restore the order optimal $O(\log T)$ regret \emph{irrespective of the amount of contamination} used by the attacker. Finally, we prove that for any bandit algorithm, this number of verifications $O(\log T)$ is necessary to recover the order-optimal regret. We can then conclude that Secure-UCB is order-optimal in terms of both the expected regret and the expected number of verifications, and can save stochastic bandits from any data poisoning attack.


翻译:本文研究在受约束的奖赏环境下的数据中毒攻击中发生的土匪算法。 我们认为这是一个强大的攻击者模型, 攻击者可以在其中观察选定的行动及其相应的奖赏, 并且能够用添加噪音污染奖励。 我们显示, o(\logT) 的土匪算法, 可能被迫遭受遗憾 $\ omega( T) 美元, 预计污染数量有限 $O( log) T) 。 这种污染数量也是必要的, 因为我们证明有美元( log T) 的遗憾算法, 特别是古典 UCB, 需要美元(log T) 的污染数量来受遗憾 $\ Omega( T) 。 为了打击这种偷猎攻击, 我们的第二个主要贡献是提出一个新的算法, 安全( T), 使用有限的 eemph( T) 校验 。 我们用任何O(log T) 的预期数量, 安全- CUB 来恢复最理想的 ASLA 。

0
下载
关闭预览

相关内容

【WWW2021】对众包系统的数据中毒攻击和防御
专知会员服务
20+阅读 · 2021年2月22日
专知会员服务
33+阅读 · 2020年12月28日
专知会员服务
52+阅读 · 2020年9月7日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
已删除
将门创投
11+阅读 · 2019年8月13日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Arxiv
0+阅读 · 2021年4月4日
Arxiv
12+阅读 · 2020年12月10日
VIP会员
相关资讯
已删除
将门创投
11+阅读 · 2019年8月13日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Top
微信扫码咨询专知VIP会员