https://rl-book.com/

强化学习(RL)将成为未来10年人工智能领域最大的突破之一,使算法能够从环境中学习以实现任意目标。这一令人兴奋的发展避免了传统机器学习(ML)算法中的限制。这本实用的书向数据科学和人工智能专业人士展示了如何通过强化学习,让机器自己学习。

Winder研究的作者Phil Winder涵盖了从基本的模块到最先进的实践。您将探索RL的当前状态,关注工业应用,学习许多算法,并从部署RL解决方案到生产的专门章节中受益。这不是一本教谱; 不回避数学,并希望熟悉ML。

  • 了解RL是什么,以及算法如何帮助解决问题
  • 掌握RL的基本原理,包括马尔可夫决策过程、动态规划和时间差异学习
  • 深入研究一系列的价值和策略梯度方法
  • 运用先进的RL解决方案,如元学习、分层学习、多智能体和模仿学习
  • 了解前沿的深度RL算法,包括Rainbow、PPO、TD3、SAC等
  • 通过相应的网站获得实际的例子

目录内容: Preface

  1. Why Reinforcement Learning?
  2. Markov Decision Processes, Dynamic Programming, and Monte Carlo Methods
  3. Temporal-Difference Learning, Q-Learning, and n-Step Algorithms
  4. Deep Q-Networks
  5. Policy Gradient Methods
  6. Beyond Policy Gradients
  7. Learning All Possible Policies with Entropy Methods
  8. Improving How an Agent Learns
  9. Practical Reinforcement Learning
  10. Operational Reinforcement Learning
  11. Conclusions and the Future A. The Gradient of a Logistic Policy for Two Actions B. The Gradient of a Softmax Policy
成为VIP会员查看完整内容
226

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
斯坦福大学最新【强化学习】2022课程,含ppt
专知会员服务
124+阅读 · 2022年2月27日
专知会员服务
125+阅读 · 2021年8月25日
【斯坦福2021新书】决策算法,694页pdf阐述不确定性决策
专知会员服务
255+阅读 · 2021年1月27日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【2022新书】强化学习工业应用
专知
17+阅读 · 2022年2月3日
【干货书】Python参考手册,210页pdf
专知
3+阅读 · 2021年4月30日
【干货书】数据科学手册,456页pdf
专知
12+阅读 · 2021年4月28日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
26+阅读 · 2018年8月19日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
斯坦福大学最新【强化学习】2022课程,含ppt
专知会员服务
124+阅读 · 2022年2月27日
专知会员服务
125+阅读 · 2021年8月25日
【斯坦福2021新书】决策算法,694页pdf阐述不确定性决策
专知会员服务
255+阅读 · 2021年1月27日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
【2022新书】强化学习工业应用
专知
17+阅读 · 2022年2月3日
【干货书】Python参考手册,210页pdf
专知
3+阅读 · 2021年4月30日
【干货书】数据科学手册,456页pdf
专知
12+阅读 · 2021年4月28日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
26+阅读 · 2018年8月19日
Arxiv
11+阅读 · 2018年4月25日
微信扫码咨询专知VIP会员