【经典书】统计强化学习:现代机器学习方法,206页pdf

2021 年 2 月 24 日 专知



强化学习技术是人工智能从感知智能向决策智能发展的关键技术之一;是基于控制论、心理学、生理学、认知科学、电脑科学等多学科交叉的新兴机器学习技术。


本书是学习和研究强化学习技术的重要参考书籍,作者是日本人工智能领域知名学者、东京大学杉山将教授。


全书将统计学习和强化学习结合,从模型无关策略迭代、模型无关策略搜索、模型相关强化学习三个技术路线角度,对强化学习函数估计中的基函数设计、样本重用以及策略搜索、模型估计等做了深入浅出的介绍。本书适合于从事人工智能和机器学习研究和应用的专家学者、技术人员、研究生阅读。

本书特色:
从现代机器学习的角度介绍了统计强化学习的基本概念和实用算法,为该领域提供了最新介绍。


涵盖了各种类型的强化学习方法,包括基于模型和无模型的方法、策略迭代和策略搜索方法。


涵盖了最近在数据挖掘和机器学习领域引入的方法,以便在强化学习和数据挖掘/机器学习研究人员之间提供系统桥梁。


呈现了最新的结果,包括强化学习的维数降低和风险敏感强化学习;介绍了许多示例来帮助读者理解强化学习技术的直观性和实用性。


目录大纲

译者序

前言
作者简介
第一部分简介
第1章强化学习介绍3 
 1.1强化学习3 
 1.2数学形式化8 
 1.3本书结构11 
  1.3.1模型无关策略迭代11 
  1.3.2模型无关策略搜索12 
  1.3.3基于模型的强化学习13 
第二部分模型无关策略迭代
第2章基于值函数近似的策略迭代17 
 2.1值函数17 
  2.1.1状态值函数17 
  2.1.2状态-动作值函数18 
 2.2最小二乘策略迭代19 
  2.2.1瞬时奖赏回归20 
  2.2.2算法21 
  2.2.3正则化23 
  2.2.4模型选择25 
 2.3本章小结26 
第3章值函数近似中的基函数设计27 
 3.1图中的高斯核27 
  3.1. 1 MDP-诱导图27 
  3.1.2通用高斯核28 
  3.1.3测地线高斯核29 
  3.1.4扩展到连续状态空间30 
 3.2图解说明30 
  3.2.1配置30 
  3.2.2测地线高斯核31 
  3.2 .3通用高斯核33
  3.2.4图拉普拉斯特征基33 
  3.2.5扩散小波35 
 3.3数值示例35 
  3.3.1机器人手臂控制35 
  3.3.2机器人导航39 
 3.4本章小结46 
第4章策略迭代中的样本重用47 
 4.1形式化47 
 4.2离策略值函数近似48 
  4.2.1片段重要性加权49 
  4.2.2每次决策的重要性加权50 
  4.2.3自适应的每次决策重要性加权50 
  4.2. 4图解说明51 
 4.3展平参数的自动选择54 
  4.3.1重要性加权交叉验证54 
  4.3.2图解说明55 
 4.4样本重用策略迭代56 
  4.4.1算法56 
  4.4.2图解说明56 
 4.5数值示例58 
  4.5. 1倒立摆58 
  4.5.2小车爬山61 
 4.6本章小结64 
第5章策略迭代中的主动学习65 
 5.1主动学习的高效探索65 
  5.1.1问题配置65 
  5.1.2泛化误差的分解66 
  5.1.3估计泛化误差67 
  5.1.4设计采样策略68 
  5.1.5图解说明69
 5.2主动策略迭代72 
  5.2.1具有主动学习的样本重用策略迭代72 
  5.2.2图解说明73 
 5.3数值示例74 
 5.4本章小结76 
第6章鲁棒策略迭代79 
 6.1策略迭代中的鲁棒性和可靠性79 
  6.1.1鲁棒性79 
  6.1.2可靠性80 
 6.2最小绝对策略迭代81 
  6.2.1算法81 
  6.2.2图解说明81 
  6.2.3性质82 
 6.3数值示例83 
 6.4可能的拓展88 
  6.4.1 Huber损失88 
  6.4.2 pinball损失89 
  6.4.3 deadzone-linear损失90 
  6.4.4切比雪夫逼近90 
  6.4.5条件风险值91 
 6.5本章小结92 
第三部分模型无关策略搜索
第7章梯度上升的直接策略搜索95 
 7.1形式化95 
 7.2梯度方法96 
  7.2.1梯度上升96 
  7.2.2方差约简的基线减法98 
  7.2.3梯度估计量的方差分析99 
 7.3自然梯度法101 
  7.3.1自然梯度上升101
  7.3.2图解说明103 
 7.4计算机图形中的应用:艺术家智能体104
  7.4.1东方山水画绘画104 
  7.4.2状态、动作和瞬时奖赏的设计106 
  7.4.3实验结果111 
 7.5本章小结113 
第8章期望最大化的直接策略搜索117 
 8.1期望最大化方法117 
 8.2样本重用119 
  8.2.1片段重要性加权119 
  8.2.2每次决策的重要性加权122 
  8.2.3自适应的每次决策重要性加权123 
  8.2 .4展平参数的自动选择123 
  8.2.5样本重用的加权奖赏回归125 
 8.3数值示例125 
 8.4本章小结131 
第9章策略优先搜索133 
 9.1形式化133 
 9.2基于参数探索的策略梯度134 
  9.2.1策略优先的梯度上升134 
  9.2.2方差约简的基线减法135 
  9.2.3梯度估计量的方差分析136 
  9.2.4数值示例138 
 9.3策略优先搜索中的样本重用142 
  9.3.1重要性加权142 
  9.3.2基线减法的方差约简144 
  9.3.3数值示例146 
 9.4本章小结153
第四部分基于模型的强化学习
第10章转移模型估计157 
 10.1条件密度估计157 
  10.1.1基于回归的方法157 
  10.1.2 ε-邻域核密度估计158 
  10.1.3最小二乘条件密度估计159 
 10.2基于模型的强化学习161 
 10.3数值示例162 
  10.3.1连续型链条游走162 
  10.3.2人形机器人控制167 
 10.4本章小结171 
第11章转移模型估计的维度约简173 
 11.1充分维度约简173 
 11.2平方损失条件熵173 
  11.2.1条件独立174 
  11.2.2利用SCE进行维度约简175 
  11.2.3 SCE与平方损失互信息的关系176 
 11.3数值示例176 
  11.3.1人工和标准数据集176 
  11.3.2人形机器人179 
 11.4本章小结182 
参考文献183


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“RL206” 可以获取《【经典书】统计强化学习:现代机器学习方法,206页pdf》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

专知会员服务
78+阅读 · 2021年5月4日
【经典书】信息论与统计: 教程,116页pdf
专知会员服务
58+阅读 · 2021年3月27日
【经典书】精通Linux,394页pdf
专知会员服务
89+阅读 · 2021年2月19日
【经典书】模式识别概率理论,654页pdf
专知会员服务
78+阅读 · 2021年1月21日
专知会员服务
134+阅读 · 2020年12月3日
【经典书】操作系统导论,687页pdf
专知会员服务
170+阅读 · 2020年10月28日
耶鲁大学《分布式系统理论》笔记,491页pdf
专知会员服务
44+阅读 · 2020年7月29日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
390+阅读 · 2020年6月8日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
225+阅读 · 2020年5月2日
经典书《斯坦福大学-多智能体系统》532页pdf
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
吴恩达机器学习课程
平均机器
9+阅读 · 2018年2月5日
课程 | 12个适合机器学习入门的经典案例
Arxiv
32+阅读 · 2021年3月8日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
7+阅读 · 2018年3月17日
Arxiv
7+阅读 · 2018年1月18日
VIP会员
相关VIP内容
专知会员服务
78+阅读 · 2021年5月4日
【经典书】信息论与统计: 教程,116页pdf
专知会员服务
58+阅读 · 2021年3月27日
【经典书】精通Linux,394页pdf
专知会员服务
89+阅读 · 2021年2月19日
【经典书】模式识别概率理论,654页pdf
专知会员服务
78+阅读 · 2021年1月21日
专知会员服务
134+阅读 · 2020年12月3日
【经典书】操作系统导论,687页pdf
专知会员服务
170+阅读 · 2020年10月28日
耶鲁大学《分布式系统理论》笔记,491页pdf
专知会员服务
44+阅读 · 2020年7月29日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
390+阅读 · 2020年6月8日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
225+阅读 · 2020年5月2日
Top
微信扫码咨询专知VIP会员