In this paper, we devise a distributional framework on actor-critic as a solution to distributional instability, action type restriction, and conflation between samples and statistics. We propose a new method that minimizes the Cram\'er distance with the multi-step Bellman target distribution generated from a novel Sample-Replacement algorithm denoted SR($\lambda$), which learns the correct value distribution under multiple Bellman operations. Parameterizing a value distribution with Gaussian Mixture Model further improves the efficiency and the performance of the method, which we name GMAC. We empirically show that GMAC captures the correct representation of value distributions and improves the performance of a conventional actor-critic method with low computational cost, in both discrete and continuous action spaces using Arcade Learning Environment (ALE) and PyBullet environment.


翻译:在本文中,我们设计了一个关于行为者-批评的分布框架,作为分配不稳定、行动类型限制以及将样本和统计数据混为一谈的一种解决办法。我们提出了一种新的方法,以最大限度地减少从一种新型的样样替换算法中生成的多步Bellman目标分布的Cram\'er距离,代之以SR($\lambda$),该算法在多个Bellman操作中学习正确的价值分布。与Gausian Mixture模型的值分配参数进一步提高了该方法(我们称之为GMAC)的效率和性能。我们从经验上表明,GMAC在使用Arcade学习环境(ALE)和PyBullet环境的离散和连续行动空间中,都掌握了价值分配的正确代表性,并改进了低计算成本的常规行为者-批评方法的性能。

0
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年8月30日
机器人运动轨迹的模仿学习综述
专知会员服务
45+阅读 · 2021年6月8日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
15+阅读 · 2020年8月11日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
45+阅读 · 2019年12月20日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关资讯
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
15+阅读 · 2020年8月11日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员