In this note, we introduce a randomized version of the well-known elliptical potential lemma that is widely used in the analysis of algorithms in sequential learning and decision-making problems such as stochastic linear bandits. Our randomized elliptical potential lemma relaxes the Gaussian assumption on the observation noise and on the prior distribution of the problem parameters. We then use this generalization to prove an improved Bayesian regret bound for Thompson sampling for the linear stochastic bandits with changing action sets where prior and noise distributions are general. This bound is minimax optimal up to constants.


翻译:在本说明中,我们引入了一种已知的椭圆潜力的随机版,广泛用于分析相继学习和决策问题的算法,例如随机的椭圆潜力,我们随机的椭圆潜力,放松高斯对观测噪音和问题参数先前分布的假设。然后我们用这种概括来证明一种更好的巴伊西亚人对于Thompson对线性随机强盗取样的遗憾,这些强盗的动作组在以前和噪音分布一般的情况下变化。这个约束是最小到常数的最理想的。

0
下载
关闭预览

相关内容

【经典书】信息论与统计: 教程,116页pdf
专知会员服务
59+阅读 · 2021年3月27日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
专知会员服务
159+阅读 · 2020年1月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
6+阅读 · 2017年7月6日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关VIP内容
【经典书】信息论与统计: 教程,116页pdf
专知会员服务
59+阅读 · 2021年3月27日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
专知会员服务
159+阅读 · 2020年1月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
6+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员