强化学习是一种学习范式,它关注的是如何控制一个系统,从而最大化一个表示长期目标的数值性能度量。强化学习与监督学习的区别在于,对于学习器的预测,只会给予部分反馈。此外,这些预测可能通过影响被控制系统的未来状态而产生长期影响。因此,时间扮演着特殊的角色。强化学习的目标是发展有效的学习算法,以及了解算法的优点和局限性。强化学习之所以引起人们极大的兴趣,是因为它可以用于解决大量的实际应用,从人工智能到运筹学或控制工程的问题。在这本书中,我们专注于那些建立在强大的动态规划理论基础上的强化学习算法。我们给出了一个相当全面的学习问题的目录,描述了核心思想,关注大量的最先进的算法,然后讨论了它们的理论性质和局限性。