Thompson sampling is a well-known approach for balancing exploration and exploitation in reinforcement learning. It requires the posterior distribution of value-action functions to be maintained; this is generally intractable for tasks that have a high dimensional state-action space. We derive a variational Thompson sampling approximation for DQNs which uses a deep network whose parameters are perturbed by a learned variational noise distribution. We interpret the successful NoisyNets method \cite{fortunato2018noisy} as an approximation to the variational Thompson sampling method that we derive. Further, we propose State Aware Noisy Exploration (SANE) which seeks to improve on NoisyNets by allowing a non-uniform perturbation, where the amount of parameter perturbation is conditioned on the state of the agent. This is done with the help of an auxiliary perturbation module, whose output is state dependent and is learnt end to end with gradient descent. We hypothesize that such state-aware noisy exploration is particularly useful in problems where exploration in certain \textit{high risk} states may result in the agent failing badly. We demonstrate the effectiveness of the state-aware exploration method in the off-policy setting by augmenting DQNs with the auxiliary perturbation module.


翻译:Thompson 取样是一种众所周知的在强化学习中平衡勘探和开发的方法。 它要求维持价值行动功能的后方分布; 这对于具有高维状态空间的任务来说,这一般是难以解决的。 我们为使用深网络的DQNs, 其参数因学习的变异噪音分布而扰动的DQNs, 我们为DQNs得出一个变异的汤普森抽样近似点。 我们把成功的NoisyNets方法 解释成与我们所得出的变异汤普森抽样方法的近似点。 此外, 我们提议, 国家意识到 Noisy 探索(SANE), 寻求通过允许非统一状态的扰动来改进Noisy Nets 。 在非统一状态的扰动中, 参数的扰动量取决于代理人的状态。 这是在一个辅助的扰动模块的帮助下完成的, 其输出取决于状态, 并学习以渐渐下降为结束 。 我们假设, 这种州觉的噪音探索对于某些Textit{ 高度风险状态的探索(SANNE) 状态可能会导致代理器的升级的升级政策。 我们展示了Dsurtural- supsuration 政策的效能。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
153+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年4月2日
Arxiv
0+阅读 · 2021年4月1日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
6+阅读 · 2018年12月10日
Arxiv
15+阅读 · 2018年4月5日
VIP会员
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年4月2日
Arxiv
0+阅读 · 2021年4月1日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
6+阅读 · 2018年12月10日
Arxiv
15+阅读 · 2018年4月5日
Top
微信扫码咨询专知VIP会员