The model selection problem in the pure exploration linear bandit setting is introduced and studied in both the fixed confidence and fixed budget settings. The model selection problem considers a nested sequence of hypothesis classes of increasing complexities. Our goal is to automatically adapt to the instance-dependent complexity measure of the smallest hypothesis class containing the true model, rather than suffering from the complexity measure related to the largest hypothesis class. We provide evidence showing that a standard doubling trick over dimension fails to achieve the optimal instance-dependent sample complexity. Our algorithms define a new optimization problem based on experimental design that leverages the geometry of the action set to efficiently identify a near-optimal hypothesis class. Our fixed budget algorithm uses a novel application of a selection-validation trick in bandits. This provides a new method for the understudied fixed budget setting in linear bandits (even without the added challenge of model selection). We further generalize the model selection problem to the misspecified regime, adapting our algorithms in both fixed confidence and fixed budget settings.


翻译:纯粹勘探线性土匪设置的模型选择问题在固定信心和固定预算设置中都引入并研究。 模型选择问题考虑了日益复杂的假设类别中的嵌套序列。 我们的目标是自动适应包含真实模型的最小假设类的根据实例的复杂度, 而不是受与最大假设类有关的复杂度的制约。 我们提供证据表明, 标准双倍的参数无法达到最佳的根据实例进行抽样的复杂度。 我们的算法根据实验设计定义了一个新的优化问题,它利用了所设定动作的几何性来有效识别接近最佳的假设类。 我们的固定预算算法在土匪中应用了一种新的选择-验证技巧。 这为未得到充分研究的线性土匪固定预算设置提供了一种新的方法( 即使没有增加模型选择的挑战 ) 。 我们进一步将模型选择问题概括到错误的系统, 在固定信心和固定预算环境下调整我们的算法 。

0
下载
关闭预览

相关内容

【NUS】深度长尾学习综述,20页pdf172篇文献
专知会员服务
58+阅读 · 2021年10月14日
【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
62+阅读 · 2021年8月20日
专知会员服务
50+阅读 · 2020年12月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
LibRec 精选:EfficientNet、XLNet 论文及代码实现
LibRec智能推荐
5+阅读 · 2019年7月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Nearly Optimal Algorithms for Level Set Estimation
Arxiv
0+阅读 · 2021年11月2日
Arxiv
0+阅读 · 2021年10月29日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
7+阅读 · 2020年3月1日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
LibRec 精选:EfficientNet、XLNet 论文及代码实现
LibRec智能推荐
5+阅读 · 2019年7月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员