Designing efficient exploration is central to Reinforcement Learning due to the fundamental problem posed by the exploration-exploitation dilemma. Bayesian exploration strategies like Thompson Sampling resolve this trade-off in a principled way by modeling and updating the distribution of the parameters of the action-value function, the outcome model of the environment. However, this technique becomes infeasible for complex environments due to the computational intractability of maintaining probability distributions over parameters of outcome models of corresponding complexity. Moreover, the approximation techniques introduced to mitigate this issue typically result in poor exploration-exploitation trade-offs, as observed in the case of deep neural network models with approximate posterior methods that have been shown to underperform in the deep bandit scenario. In this paper we introduce Sample Average Uncertainty (SAU), a simple and efficient uncertainty measure for contextual bandits. While Bayesian approaches like Thompson Sampling estimate outcomes uncertainty indirectly by first quantifying the variability over the parameters of the outcome model, SAU is a frequentist approach that directly estimates the uncertainty of the outcomes based on the value predictions. Importantly, we show theoretically that the uncertainty measure estimated by SAU asymptotically matches the uncertainty provided by Thompson Sampling, as well as its regret bounds. Because of its simplicity SAU can be seamlessly applied to deep contextual bandits as a very scalable drop-in replacement for epsilon-greedy exploration. We confirm empirically our theory by showing that SAU-based exploration outperforms current state-of-the-art deep Bayesian bandit methods on several real-world datasets at modest computation cost. Code is available at \url{https://github.com/ibm/sau-explore}.


翻译:设计高效的勘探对于加强学习至关重要,因为勘探-开发进退两难造成了根本性问题。Thompson Sampling等贝叶斯勘探战略以有原则的方式解决了这一交易,其方法是模拟和更新行动-价值功能的参数分布,即环境的结果模型。然而,由于对相应复杂的结果模型参数维持概率分布的计算不易,这一方法对于复杂的环境而言是行不通的。此外,为缓解这一问题而采用的近似技术通常导致勘探-开采深度交易的低劣性,正如在深深重土假设中显示的,以近于远深层红外线方法的深度神经网络模型解决了这一交易。在本论文中,我们引入了样样样平均不确定性(SAU),这是针对背景强盗的一种简单而有效的不确定性衡量标准。虽然Bayesian的方法像Thompson Samplling一样,通过首先量化结果模型参数的变异性来间接地估算结果。SAU是一种经常的方法,根据可值预测直接估计结果的不确定性。我们从理论上显示,在深度的当前理论中将不确定性作为Simal-AU的精确的推算,作为Smal-real-realal-deal-deal-deal-destrevol-destryal 的数值的估算,可以证实其为Syal-al-deal-deal-deal-deal-deal-deal-deal-dealdaldal exalsupals exal exal salsupal vial ex-s 。Suply sturalsmoluply stural vial violdald viold vial vial vial violdal 。Supdal 由Supdal 由Supdal 提供提供提供提供提供提供为Supdal exal exal dalal 提供其为Salalalalalalalalalalalalalalalalalalalalalalalalalalalalal 的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的精确的

0
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
11+阅读 · 2020年12月2日
VIP会员
相关VIP内容
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员