https://rl-book.com/
强化学习(RL)将成为未来10年人工智能领域最大的突破之一,使算法能够从环境中学习以实现任意目标。这一令人兴奋的发展避免了传统机器学习(ML)算法中的限制。这本实用的书向数据科学和人工智能专业人士展示了如何通过强化学习,让机器自己学习。
Winder研究的作者Phil Winder涵盖了从基本的模块到最先进的实践。您将探索RL的当前状态,关注工业应用,学习许多算法,并从部署RL解决方案到生产的专门章节中受益。这不是一本教谱; 不回避数学,并希望熟悉ML。
- 了解RL是什么,以及算法如何帮助解决问题
- 掌握RL的基本原理,包括马尔可夫决策过程、动态规划和时间差异学习
- 深入研究一系列的价值和策略梯度方法
- 运用先进的RL解决方案,如元学习、分层学习、多智能体和模仿学习
- 了解前沿的深度RL算法,包括Rainbow、PPO、TD3、SAC等
- 通过相应的网站获得实际的例子
目录内容: Preface
- Why Reinforcement Learning?
- Markov Decision Processes, Dynamic Programming, and Monte Carlo Methods
- Temporal-Difference Learning, Q-Learning, and n-Step Algorithms
- Deep Q-Networks
- Policy Gradient Methods
- Beyond Policy Gradients
- Learning All Possible Policies with Entropy Methods
- Improving How an Agent Learns
- Practical Reinforcement Learning
- Operational Reinforcement Learning
- Conclusions and the Future A. The Gradient of a Logistic Policy for Two Actions B. The Gradient of a Softmax Policy