李察·萨顿和安德鲁·巴托以清晰简明的方式阐述了强化学习的关键思想和算法。他们的讨论范围从该领域的知识基础历史到最近的发展和应用。
强化学习是人工智能中最活跃的研究领域之一,是一种计算学习方法,其中一个代理试图在与复杂、不确定的环境交互时最大化其获得的总奖励。在《强化学习》这本书中,李察·萨顿和安德鲁·巴托以清晰简明的方式阐述了强化学习的关键思想和算法。他们的讨论范围从该领域的知识基础历史到最近的发展和应用。所需的数学背景仅是对基本概率概念的熟悉。
该书分为三部分。第一部分用马尔可夫决策过程来定义强化学习问题。第二部分提供基本解决方法:动态规划,蒙特卡洛方法,和时差学习。第三部分提供了一个关于解决方法的统一视角,并融入了人工神经网络,资格痕迹和规划;最后两章提供了案例研究,并考虑了强化学习的未来。