We consider a bandit problem where the buget is smaller than the number of arms, which may be infinite. In this regime, the usual objective in the literature is to minimize simple regret. To analyze broad classes of distributions with potentially unbounded support, where simple regret may not be well-defined, we take a slightly different approach and seek to maximize the expected simple reward of the recommended arm, providing anytime guarantees. To that end, we introduce a distribution-free algorithm, OSE, that adapts to the distribution of arm means and achieves near-optimal rates for several distribution classes. We characterize the sample complexity through the rank-corrected inverse squared gap function. In particular, we recover known upper bounds and transition regimes for $\alpha$ less or greater than $1/2$ when the quantile function is $\lambda_\eta = 1-\eta^{\alpha}$. We additionally identify new transition regimes depending on the noise level relative to $\alpha$, which we conjecture to be nearly optimal. Additionally, we introduce an enhanced practical version, PROSE, that achieves state-of-the-art empirical performance for the main distribution classes considered in the literature.


翻译:我们考虑一种预算小于臂数量的老虎机问题,其中臂的数量可能为无限。在此机制下,文献中通常的目标是最小化简单遗憾。为了分析具有潜在无界支撑的广泛分布类别(其中简单遗憾可能无法明确定义),我们采取略有不同的方法,旨在最大化推荐臂的期望简单奖励,并提供任意时刻的保证。为此,我们引入了一种与分布无关的算法OSE,该算法能自适应臂均值的分布,并为多个分布类别实现近乎最优的收敛速率。我们通过秩校正逆平方间隙函数来刻画样本复杂度。特别地,当分位数函数为 λ_η = 1-η^α 时,我们恢复了 α 小于或大于 1/2 时的已知上界和过渡机制。此外,我们还发现了依赖于噪声水平相对于 α 的新过渡机制,我们推测这些机制近乎最优。另外,我们引入了一个增强的实用版本PROSE,该版本在文献中考虑的主要分布类别上实现了最先进的实证性能。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
专知会员服务
10+阅读 · 2021年10月6日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员