Contextual multi-armed bandits are classical models in reinforcement learning for sequential decision-making associated with individual information. A widely-used policy for bandits is Thompson Sampling, where samples from a data-driven probabilistic belief about unknown parameters are used to select the control actions. For this computationally fast algorithm, performance analyses are available under full context-observations. However, little is known for problems that contexts are not fully observed. We propose a Thompson Sampling algorithm for partially observable contextual multi-armed bandits, and establish theoretical performance guarantees. Technically, we show that the regret of the presented policy scales logarithmically with time and the number of arms, and linearly with the dimension. Further, we establish rates of learning unknown parameters, and provide illustrative numerical analyses.


翻译:多武装土匪是典型的典型模式,用于强化学习与个人信息有关的连续决策。对土匪使用的一种广泛政策是汤普森抽样,根据数据驱动的概率信念对未知参数进行抽样来选择控制行动。对于这一计算快速的算法,业绩分析是在全面背景观察下提供的。然而,对于没有完全遵守环境的问题却知之甚少。我们为部分可观测背景的多武装土匪建议了汤普森抽样算法,并建立了理论性能保障。技术上,我们表明,对所提出的政策尺度与时间和武器数量相对比对的遗憾,以及与此维度线相关的遗憾。此外,我们建立了学习未知参数的比率,并提供说明性的数字分析。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
CCF推荐 | 国际会议信息6条
Call4Papers
9+阅读 · 2019年8月13日
CCF推荐 | 国际会议信息10条
Call4Papers
7+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年12月22日
Arxiv
0+阅读 · 2021年12月22日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
CCF推荐 | 国际会议信息6条
Call4Papers
9+阅读 · 2019年8月13日
CCF推荐 | 国际会议信息10条
Call4Papers
7+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员