Computationally efficient contextual bandits are often based on estimating a predictive model of rewards given contexts and arms using past data. However, when the reward model is not well-specified, the bandit algorithm may incur unexpected regret, so recent work has focused on algorithms that are robust to misspecification. We propose a simple family of contextual bandit algorithms that adapt to misspecification error by reverting to a good safe policy when there is evidence that misspecification is causing a regret increase. Our algorithm requires only an offline regression oracle to ensure regret guarantees that gracefully degrade in terms of a measure of the average misspecification level. Compared to prior work, we attain similar regret guarantees, but we do no rely on a master algorithm, and do not require more robust oracles like online or constrained regression oracles (e.g., Foster et al. (2020a); Krishnamurthy et al. (2020)). This allows us to design algorithms for more general function approximation classes.


翻译:效率高的背景强盗往往基于利用过去的数据来估计一种预测模型,根据不同的背景和武器来估计奖赏。然而,当奖赏模型没有很好地指定时,土匪算法可能会引起意外的遗憾,因此最近的工作侧重于强于偏差的算法。我们建议建立一个简单的背景强盗算法组合,在有证据表明错误区分正在导致遗憾增加时,通过恢复到一个良好的安全政策来适应错误的区分错误。我们的算法只需要一个离线的回归或触角,以确保在衡量平均误差水平时出现优减的遗憾保证。与以前的工作相比,我们获得了类似的遗憾保证,但我们并不依赖主算法,而不需要像在线或受限制的回归或触法(例如,Foster等人(2020年a);Krishnamurthy 等人(202020年)那样的更坚固的手法或手法。这使我们能够为更普遍的功能近似等级设计算法。

0
下载
关闭预览

相关内容

2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
机器学习方法体系汇总
机器学习算法与Python学习
9+阅读 · 2017年8月12日
人工智能之机器学习算法体系汇总
数据挖掘入门与实战
4+阅读 · 2017年8月9日
Arxiv
0+阅读 · 2021年8月9日
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Arxiv
5+阅读 · 2020年6月16日
A Modern Introduction to Online Learning
Arxiv
19+阅读 · 2019年12月31日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
机器学习方法体系汇总
机器学习算法与Python学习
9+阅读 · 2017年8月12日
人工智能之机器学习算法体系汇总
数据挖掘入门与实战
4+阅读 · 2017年8月9日
相关论文
Top
微信扫码咨询专知VIP会员