In bandit multiple hypothesis testing, each arm corresponds to a different null hypothesis that we wish to test, and the goal is to design adaptive algorithms that correctly identify large set of interesting arms (true discoveries), while only mistakenly identifying a few uninteresting ones (false discoveries). One common metric in non-bandit multiple testing is the false discovery rate (FDR). We propose a unified, modular framework for bandit FDR control that emphasizes the decoupling of exploration and summarization of evidence. We utilize the powerful martingale-based concept of "e-processes" to ensure FDR control for arbitrary composite nulls, exploration rules and stopping times in generic problem settings. In particular, valid FDR control holds even if the reward distributions of the arms could be dependent, multiple arms may be queried simultaneously, and multiple (cooperating or competing) agents may be querying arms, covering combinatorial semi-bandit type settings as well. Prior work has considered in great detail the setting where each arm's reward distribution is independent and sub-Gaussian, and a single arm is queried at each step. Our framework recovers matching sample complexity guarantees in this special case, and performs comparably or better in practice. For other settings, sample complexities will depend on the finer details of the problem (composite nulls being tested, exploration algorithm, data dependence structure, stopping rule) and we do not explore these; our contribution is to show that the FDR guarantee is clean and entirely agnostic to these details.


翻译:在土匪多重假设测试中,每个手臂都对应着一个不同的无效假设,我们希望测试,目标是设计适应性算法,正确识别一大批有趣的武器(真正的发现),同时只错误地识别一些不感兴趣的武器(虚假发现)。非土匪多重测试的一个共同标准是虚假的发现率(FDR )。我们为土匪FDR控制提出了一个统一的模块化框架,强调勘探和证据汇总的脱钩。我们利用强大的基于马丁格的“电子过程”概念,以确保FDR对任意的复合废铁、勘探规则和在通用问题设置中停止时间的控制。特别是,有效的FDR控制即使武器报酬分配可能依赖,也可以同时询问多个武器,而多个(合作或竞争)代理商可能是查询武器,包括组合半土匪类型设置。我们以前的工作非常详细地考虑了每个手臂的奖励分配是独立的和亚撒西兰西语的设置,每个步骤都要对单臂进行控制。我们的框架恢复了这些试样复杂程度,这些样本的精确性保证在特殊的勘探结构中可以追溯到我们的具体数据。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2022年1月21日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Multi-Label Learning with Label Enhancement
Arxiv
4+阅读 · 2019年4月16日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关VIP内容
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
0+阅读 · 2022年1月21日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Multi-Label Learning with Label Enhancement
Arxiv
4+阅读 · 2019年4月16日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
3+阅读 · 2018年10月18日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
8+阅读 · 2018年5月15日
Top
微信扫码咨询专知VIP会员