We study the behavior of Thompson sampling from the perspective of weak convergence. In the regime where the gaps between arm means scale as $1/\sqrt{n}$ with the time horizon $n$, we show that the dynamics of Thompson sampling evolve according to discrete versions of SDEs and random ODEs. As $n \to \infty$, we show that the dynamics converge weakly to solutions of the corresponding SDEs and random ODEs. (Recently, Wager and Xu (arXiv:2101.09855) independently proposed this regime and developed similar SDE and random ODE approximations for Thompson sampling in the multi-armed bandit setting.) Our weak convergence theory, which covers both multi-armed and linear bandit settings, is developed from first principles using the Continuous Mapping Theorem and can be directly adapted to analyze other sampling-based bandit algorithms, for example, algorithms using the bootstrap for exploration. We also establish an invariance principle for multi-armed bandits with gaps scaling as $1/\sqrt{n}$ -- for Thompson sampling and related algorithms involving posterior approximation or the bootstrap, the weak diffusion limits are in general the same regardless of the specifics of the reward distributions or the choice of prior. In particular, as suggested by the classical Bernstein-von Mises normal approximation for posterior distributions, the weak diffusion limits generally coincide with the limit for normally-distributed rewards and priors.


翻译:我们从趋同薄弱的角度研究汤普森取样的行为。 在这种制度下,手臂间的差距意味着比例为1/\\sqrt{n}$美元,在时间范围为1/sqrt{n}美元,我们显示汤普森取样的动态根据SDEs和随机的ODE的离散版本演变。作为美元到美元,我们显示,这些动态与相应的SDEs和随机的ODEs的解决方案不相符。(最近,Wager和Xu(arXiv:2101.09855)独立提议了这一制度,并制定了类似的SDE和随机的ODE近似值,用于多臂土匪采样设置中的汤普森取样。 我们的薄弱的趋同理论,既包括多臂和线性土匪采样设置的不同版本。 我们的衰弱的趋同理论,是使用连续绘图理论,可以直接用于分析其他基于取样的测算法,例如使用靴子勘探的算法。我们还为多臂匪徒独立提出,差距以1/\qrt{n} 发展类似的SDE的SDE采集取样和相关的常规算法,通常的平序算法,通常的分布范围是,通常的分布的分布,通常的分布,通常的分布定局的分布的分布的分布的分布,通常的分布的分布的分布的分布是,以特定的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的平的

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
已删除
inpluslab
8+阅读 · 2019年10月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
VIP会员
相关资讯
已删除
inpluslab
8+阅读 · 2019年10月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员