Ensemble reinforcement learning (RL) aims to mitigate instability in Q-learning and to learn a robust policy, which introduces multiple value and policy functions. In this paper, we consider finding a novel but simple ensemble Deep RL algorithm to solve the resource consumption issue. Specifically, we consider integrating multiple models into a single model. To this end, we propose the \underline{M}inimalist \underline{E}nsemble \underline{P}olicy \underline{G}radient framework (MEPG), which introduces minimalist ensemble consistent Bellman update. And we find one value network is sufficient in our framework. Moreover, we theoretically show that the policy evaluation phase in the MEPG is mathematically equivalent to a deep Gaussian Process. To verify the effectiveness of the MEPG framework, we conduct experiments on the gym simulator, which show that the MEPG framework matches or outperforms the state-of-the-art ensemble methods and model-free methods without additional computational resource costs.


翻译:集合强化学习( RL) 旨在减轻Q- 学习中的不稳定性, 并学习一个强有力的政策, 引入多重价值和政策功能。 在本文中, 我们考虑找到一个新颖而简单的混合深RL算法来解决资源消耗问题。 具体地说, 我们考虑将多个模型整合到一个单一模型中。 为此, 我们提议了“ 下线 { M} 内线 { 内线 { 下线 } 内线 { P} 外线 { G} 辐射框架 (MEPG), 该框架引入了最小的组合一致的贝尔曼更新。 我们发现一个值网络在我们的框架中已经足够。 此外, 我们理论上显示, MEPG 的政策评价阶段在数学上等同于深高音进程。 为了验证MEPG 框架的有效性, 我们在健身房模拟器上进行实验, 这表明 MEPG 框架在不增加计算资源成本的情况下, 匹配或超越了状态的组合方法和模式。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年6月15日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
47+阅读 · 2020年1月23日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
95+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
被忽略的Focal Loss变种
极市平台
29+阅读 · 2019年4月19日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
4+阅读 · 2020年1月17日
Arxiv
4+阅读 · 2018年12月3日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
17+阅读 · 2018年4月2日
VIP会员
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
被忽略的Focal Loss变种
极市平台
29+阅读 · 2019年4月19日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员