We study a non-parametric multi-armed bandit problem with stochastic covariates, where a key complexity driver is the smoothness of payoff functions with respect to covariates. Previous studies have focused on deriving minimax-optimal algorithms in cases where it is a priori known how smooth the payoff functions are. In practice, however, the smoothness of payoff functions is typically not known in advance, and misspecification of smoothness may severely deteriorate the performance of existing methods. In this work, we consider a framework where the smoothness of payoff functions is not known, and study when and how algorithms may adapt to unknown smoothness. First, we establish that designing algorithms that adapt to unknown smoothness of payoff functions is, in general, impossible. However, under a self-similarity condition (which does not reduce the minimax complexity of the dynamic optimization problem at hand), we establish that adapting to unknown smoothness is possible, and further devise a general policy for achieving smoothness-adaptive performance. Our policy infers the smoothness of payoffs throughout the decision-making process, while leveraging the structure of non-adaptive off-the-shelf policies. We establish that for problem settings with either differentiable or non-differentiable payoff functions this policy matches (up to a logarithmic scale) the regret rate that is achievable when the smoothness of payoffs is known a priori.


翻译:我们研究的是非参数性多臂匪盗问题, 其特点是, 关键的复杂性驱动因素是, 支付功能对共变功能的顺利性。 先前的研究侧重于在事先知道支付功能如何顺利的情况下, 得出最优的小型算法。 然而, 在实际中, 付款功能的顺利性通常事先并不为人所知, 光滑性的具体性可能会严重地恶化现有方法的性能。 在这项工作中, 我们考虑的是这样一个框架: 支付功能的顺利性不为人知, 并且研究算法何时和如何适应未知的平稳性。 首先, 我们确定, 设计算法, 适应支付功能的不为人知的顺利性, 一般来说是不可能的。 然而, 在自我相似性条件下( 这不会降低当前动态优化问题的小巧复杂性), 我们确定, 适应未知的平滑性可能严重恶化现有方法的性能。 在这项工作中, 我们的政策偏向于整个决策过程的平稳性偿付能力, 以及如何适应未知的平稳性平滑性。 我们确定, 之前的平滑性的政策是, 当我们决定性决策的平时, 调整性调整性的政策, 之前的平时, 我们的平时, 将不调整性决策性调整性调整性调整性 。

0
下载
关闭预览

相关内容

【AAAI2021-斯坦福】身份感知的图神经网络
专知会员服务
37+阅读 · 2021年1月27日
【KDD2020】 半监督迁移协同过滤推荐
专知会员服务
19+阅读 · 2020年10月21日
专知会员服务
17+阅读 · 2020年9月6日
专知会员服务
18+阅读 · 2020年9月2日
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
58+阅读 · 2020年1月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
谷歌足球游戏环境使用介绍
CreateAMind
31+阅读 · 2019年6月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
14+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Arxiv
0+阅读 · 2021年3月29日
Arxiv
0+阅读 · 2021年3月26日
Arxiv
0+阅读 · 2021年3月25日
Arxiv
0+阅读 · 2021年3月25日
Arxiv
12+阅读 · 2021年3月24日
Arxiv
4+阅读 · 2020年1月17日
VIP会员
相关VIP内容
【AAAI2021-斯坦福】身份感知的图神经网络
专知会员服务
37+阅读 · 2021年1月27日
【KDD2020】 半监督迁移协同过滤推荐
专知会员服务
19+阅读 · 2020年10月21日
专知会员服务
17+阅读 · 2020年9月6日
专知会员服务
18+阅读 · 2020年9月2日
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
58+阅读 · 2020年1月10日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
谷歌足球游戏环境使用介绍
CreateAMind
31+阅读 · 2019年6月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
14+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
LibRec 每周算法:parameter-free contextual bandits (SIGIR'15)
LibRec智能推荐
5+阅读 · 2017年6月12日
Top
微信扫码咨询专知VIP会员