题目
深度残差强化学习,Deep Residual Reinforcement Learning
关键字
强化学习,残差算法,机器学习
简介
我们在无模型和基于模型的强化学习设置中重新研究残差算法。 我们建议使用双向目标网络技术来稳定残差算法,从而产生DDPG的残差版本,该版本明显优于DeepMind Control Suite基准测试中的原始DDPG。 此外,我们发现残差算法是解决基于模型的规划中分布不匹配问题的有效方法。 与现有的TD(k)方法相比,我们的基于残差的方法对模型的假设更弱,并且性能提升更大。
作者
Shangtong Zhang, Wendelin Boehmer, Shimon Whiteson,来自牛津大学