【干货书】深度强化学习导论，140页pdf

深度强化学习是强化学习（RL）和深度学习的结合。近年来，这一研究领域已经能够解决许多之前机器难以触及的复杂决策任务。深度RL为众多新的应用领域开辟了可能，例如医疗保健、机器人技术、智能电网、金融等等。本书为读者提供了了解该主题的起点。尽管是以研究层次编写，但它为读者提供了对深度强化学习模型、算法和技术的全面且易于理解的介绍。特别关注与泛化有关的方面以及如何将深度RL用于实际应用。在机器学习中，一个核心话题是顺序决策制定。这是基于经验来决定在不确定的环境中为了达到某些目标而执行的一系列行动的任务。顺序决策任务涵盖了广泛的应用领域，如机器人技术、医疗、智能电网、金融、自动驾驶汽车等。

受行为心理学的启发（参见例如，Sutton，1984年），强化学习（RL）为这个问题提出了一个正式的框架。其主要思想是，一个人工智能代理可以通过与其环境交互来学习，类似于生物代理。使用收集到的经验，这个代理应该能够优化以累积奖励形式给出的某些目标。这种方法原则上适用于任何依赖于过去经验的顺序决策问题。环境可能是随机的，代理可能只观察到当前状态的部分信息，观察结果可能是高维的（例如，帧和时间序列），代理可能在环境中自由地收集经验，或者数据可能受到限制（例如，没有访问精确的模拟器或数据有限）。

近年来，由于其在解决具有挑战性的顺序决策问题中的成功，RL变得越来越受欢迎。其中，多项成果归功于与深度学习技术（LeCun等，2015；Schmidhuber，2015；Goodfellow等，2016）的结合。这种结合，称为深度RL，对于具有高维状态空间的问题最为有用。以前的RL方法在特征选择上有一个困难的设计问题（Munos和Moore，2002；Bellemare等，2013）。然而，深度RL在需要较低先验知识的复杂任务中表现出色，这归功于其从数据中学习不同级别的抽象的能力。例如，深度RL代理可以成功地从由数千个像素组成的视觉感知输入中学习（Mnih等，2015）。这为模仿某些人类的问题解决能力打开了可能性，即使在高维空间中 —— 这在几年前还很难想象。

在使用深度RL进行游戏的几项值得注意的工作中，因在Atari游戏中从像素中获得超人级的玩家水平（Mnih等，2015）、掌握围棋（Silver等，2016a）或击败世界顶级的扑克游戏专家（Brown和Sandholm，2017；Moravčik等，2017）而脱颖而出。深度RL也有潜力应用于现实世界的应用，如机器人技术（Levine等，2016；Gandhi等，2017；Pinto等，2017）、自动驾驶汽车（You等，2017）、金融（Deng等，2017）和智能电网（François-Lavet，2017）等。

然而，在应用深度RL算法时，仍然存在许多挑战。在其他挑战中，有效地探索环境或者在稍微不同的上下文中表现出良好行为都不是直接的。因此，根据顺序决策任务的各种设置，为深度RL框架提出了大量算法。

成为VIP会员查看完整内容

相关内容

深度强化学习

关注 154

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

【干货书】深度学习与生成对抗网络：理论与应用，223页pdf

专知会员服务

78+阅读 · 2023年3月20日

【干货书】机器学习理论与实践，299页pdf

专知会员服务

99+阅读 · 2022年12月5日

【干货书】大规模图分析，632页pdf

专知会员服务

103+阅读 · 2022年10月8日

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知会员服务

112+阅读 · 2022年7月29日