A challenging aspect of the bandit problem is that a stochastic reward is observed only for the chosen arm and the rewards of other arms remain missing. Since the arm choice depends on the past context and reward pairs, the contexts of chosen arms suffer from correlation and render the analysis difficult. We propose a novel multi-armed contextual bandit algorithm called Doubly Robust (DR) Thompson Sampling (TS) that applies the DR technique used in missing data literature to TS. The proposed algorithm improves the bound of TS by a factor of $\sqrt{d}$, where $d$ is the dimension of the context. A benefit of the proposed method is that it uses all the context data, chosen or not chosen, thus allowing to circumvent the technical definition of unsaturated arms used in theoretical analysis of TS. Empirical studies show the advantage of the proposed algorithm over TS.


翻译:盗匪问题的一个具有挑战性的方面是,只对所选的手臂进行抽查性奖励,而其他武器的奖励仍然缺失。由于手臂的选择取决于过去的背景和奖赏,所选的手臂的背景存在关联性,使分析难于进行。我们建议采用新的多武装背景土匪算法,称为Doubly Robust (DR) Thompson 抽样(TS),将缺失的数据文献中使用的DR技术应用于TS。提议的算法将TS的界限提高1美元,即$d$是背景的维度。拟议方法的一个好处是,它使用所有背景数据,无论是选择还是未选择,从而可以绕过TS理论分析中使用的不饱和武器的技术定义。 Empirical 研究显示,提议的算法比TS的优势在于$@sqrt{d}。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
10+阅读 · 2018年5月2日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年3月26日
Arxiv
0+阅读 · 2021年3月25日
Arxiv
0+阅读 · 2021年3月24日
Arxiv
0+阅读 · 2021年3月24日
Arxiv
0+阅读 · 2021年3月24日
Arxiv
0+阅读 · 2021年3月23日
VIP会员
相关VIP内容
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
10+阅读 · 2018年5月2日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员