【普林斯顿干货书】强化学习与随机优化，776页pdf阐述序列决策统一框架

2021 年 4 月 25 日 专知

《强化学习和随机优化:序列决策的统一框架》是一本新书，它提供了一个统一框架，涵盖了所有在不确定性下进行决策的社区(见jungle.princeton.edu)。这是第一本全面介绍这些领域的书，遵循了确定性优化和机器学习(但不是随机优化)中长期使用的风格。

第一部分提供了基础材料，其中大部分可以略读。第1章提供了通用建模框架的概述，该框架涵盖了任何序列决策问题，最困难的挑战(对于大多数问题)是策略的设计。第1章提供了跨越任何可能被设计的策略的四类策略路线图的早期草图。第2章总结了每个社区的规范化建模框架，这些框架使用了该字段的符号来处理某种形式的序列决策问题。对这一领域完全陌生的读者可以略读这一章，了解已经采用的各种方法。有深度的读者将在这些规范问题中的一个或多个方面有一定程度的专业知识，这将有助于在该问题和我们的框架之间提供一座桥梁。最后，第三章深入探讨了在线学习。本章应该略读，然后在需要时作为参考资料使用。

第二部分-随机搜索-这些是随机优化问题，可以使用自适应算法解决，其中唯一的信息链接迭代是关于函数的信念。我们还将这些状态独立函数称为状态独立函数，以区别于我们在第三部分中开始处理的更一般的状态依赖函数。

第三部分-状态相关问题-这里我们过渡到更丰富的序列问题类，其中被优化的函数是状态相关的。

第四部分-策略搜索-这些章节描述了必须调整的策略，无论是在模拟器中还是通过经验。

第五部分-基于前瞻近似的策略-基于前瞻近似的策略是策略搜索派生的策略的对应。

第六部分-多智能体系统和学习-最后我们展示了如何扩展我们的框架来处理多智能体系统。

目录内容：

Chapter 1 – Introduction

Chapter 2 – Canonical models and applications .

Chapter 3 – Online learning- Revised from ADP book

Chapter 4 – Introduction to stochastic search

Chapter 5 – Derivative-based stochastic optimization

Chapter 6 – Stepsize policies

Chapter 7 – Derivative-free stochastic optimization

Chapter 8 – State-dependent problems

Chapter 9 – Modeling sequential decision problems

Chapter 10 – Uncertainty modeling

Chapter 11 – Designing policies

Chapter 12 – Policy function approximations and policy search

Chapter 13 – Cost function approximations

Chapter 14 – Discrete Markov decision processes

Chapter 15 – Backward approximate dynamic programming

Chapter 16 – Forward ADP I: The value of a policy

Chapter 17 – Forward ADP II: Policy optimization

Chapter 18 – Forward ADP III: Convex functions

Chapter 19 – Direct lookahead policies

Chapter 20 – POMDPs, two-agent systems, and multiagent RL

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“RLSO” 就可以获取《【普林斯顿干货书】强化学习与随机优化，776页pdf阐述序列决策统一框架》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

序列决策

关注 4

【普林斯顿硬核书】深度学习理论，118页pdf

专知会员服务

92+阅读 · 2021年6月11日

【干货书】机器学习的一阶和随机优化方法，591页pdf阐述机器学习算法基础概念和近期进展

专知会员服务

82+阅读 · 2021年5月13日

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

【干货书】面向工程师的机器学习，237页pdf概述机器学习理论、算法、概念全覆盖

专知会员服务

84+阅读 · 2021年3月10日

【斯坦福2021新书】决策算法，694页pdf阐述不确定性决策

专知会员服务

263+阅读 · 2021年1月27日

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

【2020新书】概率机器学习，附212页pdf与slides

专知会员服务

111+阅读 · 2020年11月12日

【硬核书】不完全信息决策理论，467页pdf

专知会员服务

363+阅读 · 2020年6月24日

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

专知会员服务

317+阅读 · 2020年5月28日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

专知

20+阅读 · 2020年7月22日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知

31+阅读 · 2020年4月28日

经典书《斯坦福大学-多智能体系统》532页pdf

专知

119+阅读 · 2020年1月29日

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知

30+阅读 · 2019年1月2日

每日论文 | 高效推理框架VBMC；深度学习在图像去噪中的应用总结；元学习应用总结

论智

5+阅读 · 2018年10月15日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

关于强化学习（附代码，练习和解答）

深度学习

37+阅读 · 2018年1月30日

学界 | 面向工程师的机器学习简介：理论、算法、概念全覆盖

机器之心

17+阅读 · 2017年9月15日

Efficient recursive least squares solver for rank-deficient matrices

Arxiv

0+阅读 · 2021年6月22日

BiAdam: Fast Adaptive Bilevel Optimization Methods

Arxiv

0+阅读 · 2021年6月21日

SAN: Stochastic Average Newton Algorithm for Minimizing Finite Sums

Arxiv

0+阅读 · 2021年6月19日

Distributed optimal power flow

Arxiv

0+阅读 · 2021年6月18日

Unsupervised Resource Allocation with Graph Neural Networks

Arxiv

0+阅读 · 2021年6月17日

An end-to-end Neural Network Framework for Text Clustering

Arxiv

6+阅读 · 2019年3月22日

CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving

Arxiv

8+阅读 · 2018年7月10日

Deep Reinforcement Learning: An Overview

Arxiv

15+阅读 · 2018年6月23日

Improv Chat: Second Response Generation for Chatbot

Arxiv

4+阅读 · 2018年5月10日

Inverse Reinforcement Learning via Deep Gaussian Process

Arxiv

3+阅读 · 2017年5月4日

VIP会员