这本手稿涵盖了强化学习的所有重要的基本方面。第二章采用马尔可夫决策过程对主体与环境之间的相互作用进行建模。第三章介绍了基于给定环境模型解决MDP问题的核心技术——动态规划。一般来说,解决MDP问题涉及到政策评估和政策改进的迭代。在第四章中,我们讨论了无模型方法:蒙特卡洛,TD学习,SARSA和q学习。第五章对强化学习中的值函数逼近进行了一般讨论。作为一个重要的例子,深度Q-learning将在第6章中详细介绍。第7章介绍了策略梯度方法,重点介绍了策略梯度定理、REINFORCE算法、Advantage Actor-Critic算法等基本概念。

成为VIP会员查看完整内容
58

相关内容

书籍在狭义上的理解是带有文字和图像的纸张的集合。广义的书则是一切传播信息的媒体。
【干货书】凸随机优化,320页pdf
专知会员服务
50+阅读 · 9月16日
【2022新书】强化学习工业应用,408页pdf
专知会员服务
166+阅读 · 2月3日
【新书】分布式强化学习,280页pdf
专知会员服务
88+阅读 · 2021年12月19日
专知会员服务
160+阅读 · 2021年10月8日
专知会员服务
96+阅读 · 2021年8月25日
专知会员服务
161+阅读 · 2021年8月2日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
92+阅读 · 2021年3月30日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
83+阅读 · 2020年11月12日
【干货书】凸随机优化,320页pdf
专知
2+阅读 · 9月16日
【新书】分布式强化学习,280页pdf
专知
10+阅读 · 2021年12月19日
深入理解强化学习,看这篇就够了
PaperWeekly
3+阅读 · 2021年11月28日
【经典书】贝叶斯强化学习概述,147页pdf
专知
2+阅读 · 2021年11月21日
【强化学习】强化学习+深度学习=人工智能
产业智能官
46+阅读 · 2017年8月11日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
7+阅读 · 2008年12月31日
Arxiv
14+阅读 · 2021年11月2日
VIP会员
相关VIP内容
【干货书】凸随机优化,320页pdf
专知会员服务
50+阅读 · 9月16日
【2022新书】强化学习工业应用,408页pdf
专知会员服务
166+阅读 · 2月3日
【新书】分布式强化学习,280页pdf
专知会员服务
88+阅读 · 2021年12月19日
专知会员服务
160+阅读 · 2021年10月8日
专知会员服务
96+阅读 · 2021年8月25日
专知会员服务
161+阅读 · 2021年8月2日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
92+阅读 · 2021年3月30日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
83+阅读 · 2020年11月12日
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
7+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员