圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

2020 年 2 月 5 日 深度强化学习实验室

深度强化学习实验室报道

作者:DeepRL


下载地址见文章末尾


强化学习是现在人工智能领域里面最活跃的研究领域之一,它是一种用于学习的计算方法,其中会有一个代理在与复杂的不确定环境交互时试图最大化其所收到的奖励。现在,如果你是一个强化学习的初学者,由 Richard Sutton 和 Andrew Barto 合著的《Reinforcement Learning : An Introduction》可能就是你的最佳选择。这本书提供了关于强化学习的简单明了的关键思想和算法的解释。他们讨论了该领域的知识基础的历史延伸到了最新的发展的应用。




一、|| 关于圣经书:


本书全文共分三部分,17章内容

  • 第一部分:列表(Tabular)解决法,第一章描述了强化学习问题具体案例的解决方案,第二章描述了贯穿全书的一般问题制定——有限马尔科夫决策过程,其主要思想包括贝尔曼方程(Bellman equation)和价值函数,第三、四、五章介绍了解决有限马尔科夫决策问题的三类基本方法:动态编程,蒙特卡洛方法、时序差分学习。三者各有其优缺点,第六、七章介绍了上述三类方法如何结合在一起进而达到最佳效果。第六章中介绍了可使用适合度轨迹(eligibility traces)把蒙特卡洛方法和时序差分学习的优势整合起来。第七章中表明时序差分学习可与模型学习和规划方法(比如动态编程)结合起来,获得一个解决列表强化学习问题的完整而统一的方案。

  • 第二部分:近似求解法从某种程度上讲只需要将强化学习方法和已有的泛化方法结合起来。泛化方法通常称为函数逼近,从理论上看,在这些领域中研究过的任何方法都可以用作强化学习算法中的函数逼近器,虽然实际上有些方法比起其它更加适用于强化学习。在强化学习中使用函数逼近涉及一些在传统的监督学习中不常出现的新问题,比如非稳定性(nonstationarity)、引导(bootstrapping)和目标延迟(delayed targets)。这部分的五章中先后介绍这些以及其它问题。首先集中讨论在线(on-policy)训练,而在第九章中的预测案例其策略是给定的,只有其价值函数是近似的,在第十章中的控制案例中最优策略的一个近似已经找到。第十一章讨论函数逼近的离线(off-policy)学习的困难第十二章将介绍和分析适合度轨迹(eligibility traces)的算法机制,它能在多个案例中显著优化多步强化学习方法的计算特性。这一部分的最后一章将探索一种不同的控制、策略梯度的方法,它能直接逼近最优策略且完全不需要设定近似值函数(虽然如果使用了一个逼近价值函数,效率会高得多)。

  • 第三部分:深层次研究这部分把眼光放到第一、二部分中介绍标准的强化学习思想之外,简单地概述它们和心理学以及神经科学的关系,讨论一个强化学习应用的采样过程,和一些未来的强化学习研究的活跃前沿。


二、|| 关于作者:


1. Richard S. Sutton:(强化学习教父)

Richard S. Sutton 教授被认为是现代计算的强化学习创立者之一。就职于他为该领域做出了许多重大贡献,包括:时间差分学习、策略梯度方法、Dyna 架构。Sutton 博士进入的第一个领域甚至与计算机科学无关。他先是获得了心理学学士学位,然后才转向计算机科学。

目前就职于加拿大阿尔伯塔大学计算机科学系与Google-DeepMind,他的弟子David sliver正是DeepMind创造AlphaGo的带头人。

个人主页:http://www.incompleteideas.net/

2. Andrew G. Barto: 
这位大佬是“教父”的老师,那么就是祖祖师爷。

Retired Co-Director Autonomous Learning Laboratory

College of Information and Computer Sciences
272 Computer Science Building
University of Massachusetts Amherst

个人主页: http://www-anw.cs.umass.edu/~barto/

真所谓一门三杰:  Andrew G. Barto, Richard S. Sutton David sliver


二、|| 关于代码:
本书的官方代码由ShangtongZhang提供,他目前博士就读于牛津大学


三、|| 关于课后答案:
本部分配套答案是全网最全的圣经书课后习题答案,下面是目录


四、|| David Sliver配套视频:
课程主页: http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

书籍主页http://incompleteideas.net/book/the-book-2nd.html

原书pdf地址 http://incompleteideas.net/book/RLbook2018.pdf
代码地址 http://incompleteideas.net/book/code/code2nd.html
课后习题 https://pan.baidu.com/s/14NcCbshyHlWA0YyuEEPPqw
David sliver中文字幕视频 https://www.bilibili.com/video/av32149008?p=1


声明:本文转载请注明出处。


第48篇:全网首发最全深度强化学习资料(永更)

第47篇:30+个必知的《人工智能》会议清单

第46篇:2019年-57篇深度强化学习文章汇总

第45篇:起死回生|| 如何rebuttal顶会学术论文?

第44篇:深度强化学习入门到精通资料综述

第43篇:顶会征稿 ||  ICAPS2020: DeepRL

第42篇:实习生招聘 || 华为诺亚方舟实验室

第41篇:滴滴实习生|| 深度强化学习方向

第40篇:AAAI-2020 || 52篇深度强化学习论文

第39篇:Call For Papers# IJCNN2020-DeepRL

第38篇:DQN系列(2): Double DQN 算法

第37篇:DQN系列(1): Double Q-learning

第36篇:从Paper到Coding, DRL挑战34类游戏

第35篇:复现"深度强化学习"论文的经验之谈

第34篇:α-Rank算法之DeepMind及Huawei改进

第33篇:DeepMind-102页深度强化学习PPT

第32篇:腾讯AI Lab强化学习招聘(正式/实习)

第31篇:强化学习,路在何方?

第30篇:强化学习的三种范例

第29篇:框架ES-MAML:进化策略的元学习方法

第28篇:138页“策略优化”PPT--Pieter Abbeel

第27篇:迁移学习在强化学习中的应用及最新进展

第26篇:深入理解Hindsight Experience Replay

第25篇:10项【深度强化学习】赛事汇总

第24篇:DRL实验中到底需要多少个随机种子?

第23篇:142页"ICML会议"强化学习笔记

第22篇:通过深度强化学习实现通用量子控制

第21篇:《深度强化学习》面试题汇总

第20篇:《深度强化学习》招聘汇总(13家企业)

第19篇:解决反馈稀疏问题之HER原理与代码实现

第18篇:"DeepRacer" —顶级深度强化学习挑战赛

第17篇:AI Paper | 几个实用工具推荐

第16篇:AI领域:如何做优秀研究并写高水平论文?

第15篇: DeepMind开源三大新框架!
第14篇: 61篇NIPS2019DeepRL论文及部分解读
第13篇: OpenSpiel(28种DRL环境+24种DRL算法)
第12篇: 模块化和快速原型设计Huskarl DRL框架
第11篇: DRL在Unity自行车环境中配置与实践
第10篇: 解读72篇DeepMind深度强化学习论文
第9篇: 《AutoML》:一份自动化调参的指导
第8篇: ReinforceJS库(动态展示DP、TD、DQN)
第7篇: 10年NIPS顶会DRL论文(100多篇)汇总
第6篇: ICML2019-深度强化学习文章汇总
第5篇: 深度强化学习在阿里巴巴的技术演进
第4篇: 深度强化学习十大原则
第3篇: “超参数”自动化设置方法---DeepHyper
第2篇: 深度强化学习的加速方法
第1篇: 深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析


第13期论文:2020-1-21(共7篇)

第12期论文:2020-1-10(Pieter Abbeel一篇,共6篇)

第11期论文:2019-12-19(3篇,一篇OpennAI)

第10期论文:2019-12-13(8篇)

第9期论文:2019-12-3(3篇)

第8期论文:2019-11-18(5篇)

第7期论文:2019-11-15(6篇)

第6期论文:2019-11-08(2篇)

第5期论文:2019-11-07(5篇,一篇DeepMind发表)

第4期论文:2019-11-05(4篇)

第3期论文:2019-11-04(6篇)

第2期论文:2019-11-03(3篇)

第1期论文:2019-11-02(5篇)



登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
斯坦福EE364a《凸优化》课件,301页ppt
专知会员服务
95+阅读 · 2020年7月14日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
强化学习精品书籍
平均机器
25+阅读 · 2019年1月2日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
零基础搞懂强化学习?这份视频攻略不算迟
AI研习社
6+阅读 · 2018年4月25日
关于强化学习(附代码,练习和解答)
深度学习
36+阅读 · 2018年1月30日
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
Knowledge Flow: Improve Upon Your Teachers
Arxiv
5+阅读 · 2019年4月11日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
斯坦福EE364a《凸优化》课件,301页ppt
专知会员服务
95+阅读 · 2020年7月14日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
相关资讯
强化学习精品书籍
平均机器
25+阅读 · 2019年1月2日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
零基础搞懂强化学习?这份视频攻略不算迟
AI研习社
6+阅读 · 2018年4月25日
关于强化学习(附代码,练习和解答)
深度学习
36+阅读 · 2018年1月30日
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
相关论文
Knowledge Flow: Improve Upon Your Teachers
Arxiv
5+阅读 · 2019年4月11日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
Top
微信扫码咨询专知VIP会员