We study the best-arm identification problem in multi-armed bandits with stochastic, potentially private rewards, when the goal is to identify the arm with the highest quantile at a fixed, prescribed level. First, we propose a (non-private) successive elimination algorithm for strictly optimal best-arm identification, we show that our algorithm is $\delta$-PAC and we characterize its sample complexity. Further, we provide a lower bound on the expected number of pulls, showing that the proposed algorithm is essentially optimal up to logarithmic factors. Both upper and lower complexity bounds depend on a special definition of the associated suboptimality gap, designed in particular for the quantile bandit problem, as we show when the gap approaches zero, best-arm identification is impossible. Second, motivated by applications where the rewards are private, we provide a differentially private successive elimination algorithm whose sample complexity is finite even for distributions with infinite support-size, and we characterize its sample complexity. Our algorithms do not require prior knowledge of either the suboptimality gap or other statistical information related to the bandit problem at hand.


翻译:我们研究的是多武装强盗中具有随机性、潜在的私人奖赏的最好的武器识别问题,当目标是在固定的、规定的水平上辨别手臂与最高四分位数时。首先,我们提出一个(非私营的)连续消除算法,以严格优化最佳武器识别,我们显示我们的算法是$delta$-PAC,我们对其样本复杂性作了区分。此外,我们提供了一个关于预期拉动次数的较低界限,表明提议的算法基本上与对数因素相比是最佳的。高低的复杂界限都取决于相关次优化差距的特殊定义,特别是针对四分位断层问题,正如我们所显示的那样,当差距接近零时,最佳武器识别是不可能的。第二,由于各种应用的动机,当奖励是私人的时,我们提供了一种差别的私人连续消除算法,其样本复杂性即使是在无限支持规模的分布上也是有限的,我们对其样本复杂性加以定性。我们的算法不需要事先知道亚最佳差距或手顶问题的其他统计信息。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
42+阅读 · 2020年7月7日
专知会员服务
60+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
已删除
将门创投
3+阅读 · 2018年8月21日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Differentially Private Quantiles
Arxiv
0+阅读 · 2021年6月15日
Arxiv
0+阅读 · 2021年6月15日
Arxiv
0+阅读 · 2021年6月15日
Arxiv
0+阅读 · 2021年6月14日
Arxiv
0+阅读 · 2021年6月11日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
42+阅读 · 2020年7月7日
专知会员服务
60+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
已删除
将门创投
3+阅读 · 2018年8月21日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员