序列决策,通常形式化为马尔可夫决策过程(MDP)优化,是人工智能的一个重要挑战。解决这个问题的两种关键方法是强化学习(RL)和规划。这项综述是这两个领域的集成,更广为人知的是基于模型的强化学习。基于模型的RL有两个主要步骤。首先,我们系统地介绍了动力学模型学习的方法,包括处理随机性、不确定性、部分可观察性和时间抽象等挑战。其次,我们提出了规划-学习集成的系统分类,包括:从哪里开始规划,为规划和实际数据收集分配哪些预算,如何规划,以及如何在学习和行动循环中集成规划。在这两个部分之后,我们还讨论了隐式基于模型的RL作为模型学习和规划的端到端替代方案,并讨论了基于模型的RL的潜在好处。在此过程中,调研还与几个相关的RL领域建立了联系,如分层RL和传输。