这本书的目的是将不确定情况下的决策基础结果集中在一处。特别的,目标是对序列决策制定问题的算法和理论给出统一的描述,包括强化学习。从基础的统计决策理论开始,我们进展到强化学习问题和各种解决方法。本书的最后聚焦于模型和近似算法的当前艺术状态。不确定性下的决策制定问题可以分解为两部分。首先,我们如何了解世界?这包括了关于我们最初对世界的不确定性建模的问题,以及从证据和我们的初始信仰中得出结论的问题。其次,考虑到可能改变我们结论的未来事件和观察,我们当前对世界的了解,我们应该如何决定要做什么?通常,这将涉及创建覆盖可能未来情况的长期计划。也就是说,在不确定性下规划时,我们还需要考虑在执行我们的计划时可能产生的未来知识。直观地说,执行涉及尝试新事物的计划应该提供更多的信息,但很难判断这些信息是否会有益。在已知能产生好结果的事物和试验新事物之间的选择被称为探索–利用困境,它是学习和规划互动的根源。这本书的第一部分,第1-4章,专注于非序列设置下的不确定性决策。这包括假设测试等场景,其中决策者必须根据可用证据选择一个行动。大部分的发展都是通过贝叶斯推理和决策理论的视角给出的,其中决策者对真实情况有一个主观信仰(以概率分布表示)。本书的第二部分,第5-8章,介绍了序列问题和马尔可夫决策过程的形式主义。其余章节致力于强化学习问题,这是最通用的不确定性下的序列决策问题之一。最后,我们增加了一些理论和实践练习,希望能帮助读者理解这些材料。