【普林斯顿干货书】强化学习与随机优化,776页pdf阐述序列决策统一框架

2021 年 4 月 25 日 专知


强化学习和随机优化:序列决策的统一框架》是一本新书,它提供了一个统一框架,涵盖了所有在不确定性下进行决策的社区(见jungle.princeton.edu)。这是第一本全面介绍这些领域的书,遵循了确定性优化和机器学习(但不是随机优化)中长期使用的风格。


第一部分提供了基础材料,其中大部分可以略读。第1章提供了通用建模框架的概述,该框架涵盖了任何序列决策问题,最困难的挑战(对于大多数问题)是策略的设计。第1章提供了跨越任何可能被设计的策略的四类策略路线图的早期草图。第2章总结了每个社区的规范化建模框架,这些框架使用了该字段的符号来处理某种形式的序列决策问题。对这一领域完全陌生的读者可以略读这一章,了解已经采用的各种方法。有深度的读者将在这些规范问题中的一个或多个方面有一定程度的专业知识,这将有助于在该问题和我们的框架之间提供一座桥梁。最后,第三章深入探讨了在线学习。本章应该略读,然后在需要时作为参考资料使用。


第二部分-随机搜索-这些是随机优化问题,可以使用自适应算法解决,其中唯一的信息链接迭代是关于函数的信念。我们还将这些状态独立函数称为状态独立函数,以区别于我们在第三部分中开始处理的更一般的状态依赖函数。


第三部分-状态相关问题-这里我们过渡到更丰富的序列问题类,其中被优化的函数是状态相关的。


第四部分-策略搜索-这些章节描述了必须调整的策略,无论是在模拟器中还是通过经验。


第五部分-基于前瞻近似的策略-基于前瞻近似的策略是策略搜索派生的策略的对应。


第六部分-多智能体系统和学习-最后我们展示了如何扩展我们的框架来处理多智能体系统。


目录内容:


Chapter 1 – Introduction

Chapter 2 – Canonical models and applications . 

Chapter 3 – Online learning- Revised from ADP book 

Chapter 4 – Introduction to stochastic search 

Chapter 5 – Derivative-based stochastic optimization

Chapter 6 – Stepsize policies

Chapter 7 – Derivative-free stochastic optimization

Chapter 8 – State-dependent problems

Chapter 9 – Modeling sequential decision problems 

Chapter 10 – Uncertainty modeling 

Chapter 11 – Designing policies 

Chapter 12 – Policy function approximations and policy search

Chapter 13 – Cost function approximations

Chapter 14 – Discrete Markov decision processes 

Chapter 15 – Backward approximate dynamic programming 

Chapter 16 – Forward ADP I: The value of a policy 

Chapter 17 – Forward ADP II: Policy optimization

Chapter 18 – Forward ADP III: Convex functions 

Chapter 19 – Direct lookahead policies

Chapter 20 – POMDPs, two-agent systems, and multiagent RL




专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“RLSO” 就可以获取【普林斯顿干货书】强化学习与随机优化,776页pdf阐述序列决策统一框架》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
3

相关内容

专知会员服务
91+阅读 · 2021年6月11日
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
122+阅读 · 2021年3月30日
【斯坦福2021新书】决策算法,694页pdf阐述不确定性决策
专知会员服务
255+阅读 · 2021年1月27日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
108+阅读 · 2020年11月12日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
351+阅读 · 2020年6月24日
经典书《斯坦福大学-多智能体系统》532页pdf
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
关于强化学习(附代码,练习和解答)
深度学习
36+阅读 · 2018年1月30日
Arxiv
0+阅读 · 2021年6月21日
Arxiv
0+阅读 · 2021年6月18日
Arxiv
15+阅读 · 2018年6月23日
Arxiv
4+阅读 · 2018年5月10日
VIP会员
Top
微信扫码咨询专知VIP会员