题目: A Game Theoretic Framework for Model Based Reinforcement Learning
摘要: 基于模型的强化学习(MBRL)最近获得了极大的兴趣,因为它具有潜在的样本效率和合并非策略数据的能力。然而,使用富函数逼近器设计稳定、高效的MBRL算法仍然具有挑战性。为了从抽象的角度揭示MBRL的实际挑战并简化算法设计,我们开发了一个新的框架,将MBRL描述为:(1)一个策略参与者,它试图在学习模型下最大化回报;(2)一个模型player,它试图与策略player收集的真实数据相匹配。在算法开发方面,我们构造了一个双方参与的Stackelberg博弈,并证明了它可以用近似的双层优化来解决。这就产生了两种自然的MBRL算法,基于这两种算法,玩家被选择为Stackelberg游戏的领导者。它们一起封装、统一和泛化了许多以前的MBRL算法。此外,我们的框架是一致的,并提供了一个明确的基础启发式已知是重要的实践,从以往的工作。最后,通过实验验证了所提出的算法具有较高的样本效率,匹配无模型策略梯度的渐近性能,并能扩展到灵巧手操作等高维任务。