In this paper, we consider the problem of actor-critic reinforcement learning. Firstly, we extend the actor-critic architecture to actor-critic-N architecture by introducing more critics beyond rewards. Secondly, we combine the reward-based critic with a potential-field-based critic to formulate the proposed potential field guided actor-critic reinforcement learning approach (actor-critic-2). This can be seen as a combination of the model-based gradients and the model-free gradients in policy improvement. State with large potential field often contains a strong prior information, such as pointing to the target at a long distance or avoiding collision by the side of an obstacle. In this situation, we should trust potential-field-based critic more as policy evaluation to accelerate policy improvement, where action policy tends to be guided. For example, in practical application, learning to avoid obstacles should be guided rather than learned by trial and error. State with small potential filed is often lack of information, for example, at the local minimum point or around the moving target. At this time, we should trust reward-based critic as policy evaluation more to evaluate the long-term return. In this case, action policy tends to explore. In addition, potential field evaluation can be combined with planning to estimate a better state value function. In this way, reward design can focus more on the final stage of reward, rather than reward shaping or phased reward. Furthermore, potential field evaluation can make up for the lack of communication in multi-agent cooperation problem, i.e., multi-agent each has a reward-based critic and a relative unified potential-field-based critic with prior information. Thirdly, simplified experiments on predator-prey game demonstrate the effectiveness of the proposed approach.


翻译:在本文中,我们考虑的是基于行为体的强化学习问题。 首先,我们通过引入更多的批评者,将行为体的强化架构扩大到更多批评者而不是奖赏者; 其次,我们将基于奖励的批评者与潜在的实地批评家结合起来,以制定拟议的外地指导的行为体强化学习方法(Cat-crictic -2)。这可以被看作是基于模型的梯度和政策改进中无模式的梯度的组合。 具有巨大潜力的领域国家通常包含强有力的先前信息,例如指出目标距离遥远,或避免障碍一侧的碰撞。 在这种情况下,我们应该将基于潜在实地的批评者更多地作为政策评价,以加速政策改进,而以行动政策为导向。举例说,在实际应用中,学习避免障碍而不是通过试验和错误来学习。 潜在潜力小的国家往往缺乏信息,例如,在最起码的点或移动目标周围。 此时,我们应该信任基于奖赏的批评者作为政策评价的更深入的评估对象,在评估长期的轨道上,在评估中,可以更深入地评估, 行动趋势是,在评估实地评估中,在评估中,在评估前的实地评估中,可以显示,在评估中,在评估中,在评估中,在评估中,在评估中,在评估中,在评估中,在评估中,在评估中可以更有潜在,在评估可能,在评估,在评估可能,在评估,在评估前,在评估中,在评估中, 度上,在评估,在评估中,在评估,在评估前,可以更注重,在评估,在评估前,在评估,在评估中,在评估,在评估,在评估前,在评估中,在评估中,在评估中,在评估中,在评估中,在评估中,在评估,在评估前,在评估,在评估,在评估前,在评估,在评估中,在评估前,在评估中,可以以前,可以更上,可以更上,在评估,在评估中,在评估,在评估,在评估。,在评估,在评估,在评估中,在评估中,在评估中,在评估中,在评估中,在评估中,在评估中,在评估中,在评估中,在评估,在评估,在评估,在评估,在评估,在评估,在评估,在

0
下载
关闭预览

相关内容

可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
46+阅读 · 2020年1月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关VIP内容
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员