本书分为三个部分。第一部分介绍了分布式强化学习的构建模块。我们首先介绍了我们的基本研究对象,收益分布和分布Bellman方程(第二章)。第三章介绍了分类时间差分学习,一种简单的学习收益分布的算法。在第三章结束时,读者应该理解分布式强化学习的基本原则,并且应该能够在简单的实际设置中使用它。

第二部分是对分布式强化学习理论的发展。第4章介绍了一种用于测量返回分布之间距离的语言,以及与这些分布交互的操作符。第5章介绍了实现分布式强化学习所需的概率表示的概念;在此基础上,研究了用这种表示来计算和近似收益分布的问题,并引入了分布动态规划的框架。第6章研究了如何从样本中以增量的方式学习返回分布,给出了类别时间差分学习的正式结构,以及其他算法,如分位数时间差异学习。第7章将这些思想扩展到最优决策的设置(也称为控制设置)。最后,第8章介绍了基于统计泛函概念的分布强化学习的不同视角。在第二部分结束时,读者应该理解在设计分布式强化学习算法时出现的挑战,以及解决这些挑战的可用工具。

第三部分和最后一部分为实际场景ios开发了分布式强化学习。第九章回顾了线性值函数逼近的原理,并将这些思想推广到分布环境中。第10章讨论了如何将分布方法与深度神经网络相结合来获得深度强化学习的算法,并提出了一个模型来研究这种结合所产生的现象。第11章讨论了分布式强化学习在两个进一步研究领域(多主体学习和神经科学)的新兴应用,并得出结论。

https://www.distributional-rl.org/

成为VIP会员查看完整内容
146

相关内容

【新书】基于物理的深度学习,220页pdf
专知会员服务
140+阅读 · 2021年9月15日
专知会员服务
121+阅读 · 2021年8月25日
【经典书】半监督学习,524页pdf
专知会员服务
134+阅读 · 2021年8月20日
专知会员服务
113+阅读 · 2021年7月24日
专知会员服务
223+阅读 · 2021年6月3日
【MIT经典书】统计学习与序列预测,261页pdf
专知会员服务
74+阅读 · 2020年11月17日
【2020新书】傅里叶变换的离散代数,296页pdf
专知会员服务
111+阅读 · 2020年11月2日
【经典书】概率统计导论第五版,730页pdf
专知会员服务
234+阅读 · 2020年7月28日
【经典书】人工智能及机器学习导论,457页pdf
专知会员服务
158+阅读 · 2020年7月5日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
177页《鲁棒机器学习》教程【下载】
机器学习算法与Python学习
8+阅读 · 2018年11月15日
关于强化学习(附代码,练习和解答)
深度学习
35+阅读 · 2018年1月30日
Arxiv
0+阅读 · 2022年2月21日
GFlowNet Foundations
Arxiv
9+阅读 · 2021年11月17日
Arxiv
7+阅读 · 2021年4月30日
Scale-Aware Trident Networks for Object Detection
Arxiv
4+阅读 · 2019年1月7日
Arxiv
3+阅读 · 2018年10月8日
VIP会员
相关VIP内容
【新书】基于物理的深度学习,220页pdf
专知会员服务
140+阅读 · 2021年9月15日
专知会员服务
121+阅读 · 2021年8月25日
【经典书】半监督学习,524页pdf
专知会员服务
134+阅读 · 2021年8月20日
专知会员服务
113+阅读 · 2021年7月24日
专知会员服务
223+阅读 · 2021年6月3日
【MIT经典书】统计学习与序列预测,261页pdf
专知会员服务
74+阅读 · 2020年11月17日
【2020新书】傅里叶变换的离散代数,296页pdf
专知会员服务
111+阅读 · 2020年11月2日
【经典书】概率统计导论第五版,730页pdf
专知会员服务
234+阅读 · 2020年7月28日
【经典书】人工智能及机器学习导论,457页pdf
专知会员服务
158+阅读 · 2020年7月5日
微信扫码咨询专知VIP会员