深度强化学习的最新进展已经证明了其在解决现实问题方面的巨大潜力。然而,有两个问题阻碍了强化学习的应用:效率和效果。**本文研究如何通过设计基于深度模型的算法来提高强化学习的效率和效果。****对动力学模型的访问使算法能够进行规划,这是顺序决策的关键。本文主要围绕在线强化学习、神经网络在深度强化学习中的表达能力、离线强化学习和安全强化学习四个主题展开研究。**对于在线强化学习,本文提出了一个具有理论保证的算法框架,利用在学习环境中学习到的策略在真实环境中可以获得的性能下界。通过实验验证了所提方法的有效性。对于深度强化学习中神经网络的表达能力,证明了在某些情况下,基于模型的方法比无模型的方法需要更少的表示能力来近似接近最优的策略,并根据经验表明,这在模拟机器人环境中可能是一个问题,基于模型的规划器可以帮助。对于离线强化学习,设计了一种算法,使策略能够保持在提供的专家演示集附近,以减少分布偏移,还进行了实验,证明了所提出方法在提高模拟环境中机械臂操纵任务成功率的有效性。对于安全强化学习,提出了一种用学到的动力学模型来证明安全状态的方法,实验表明,该方法可以在一组简单但具有挑战性的任务中学习一个不错的策略,没有一次安全违规,而基线算法有数百次安全违规。 https://dataspace.princeton.edu/handle/88435/dsp013197xq26c