没有模型如何进行强化学习——蒙特卡洛方法

会员服务 ·

没有模型如何进行强化学习——蒙特卡洛方法

2017 年 2 月 21 日 机器人学家 翻译志愿者团队

产业学术趣玩

每周推送原创潮流机器人资讯

我们获得授权翻译CMU课程 10703 Deep Reinforcement Learning & Control，这是第四讲。

感谢Katerina Fragkiadaki教授的支持。

翻译贡献者：

李飞腾，HFUT，Mechatronics (1-9)

李政锴，HIT，CSE (10-16)

王馨，CUHK, rehabilitation robotics (17-21, 39-41)

曹瑾，SJTU，Robotics (22-28)

刘乃龙，SIA, Robotics (29-38)

组长&校对：李宏坤

「机器人学家」授权翻译

本讲

概要

本讲介绍强化学习中的蒙特卡洛方法，即通过试验采样来估计策略优劣。不同于上节课的精确求解法，蒙特卡洛方法并不要求模型已知，因而有更灵活的应用。

应用蒙特卡洛方法的很重要一点是要保证探索性（exploration），为此在训练时往往需要牺牲最优策略，而采用次优但能保证探索的策略。此时我们的策略衡量（Policy Evaluation）得到的不是最优策略的值（value），这是一个值得注意的问题。

如何能一边用次优的策略进行探索，一边计算着最优策略的value？这就是本讲介绍的第二个主题——借助统计学上的重要性采样（importance sampling）来直接衡量最优策略的“异策略方法（off-policy methods）”。

Contents

文档

下载

请在后台回复"10703"获取完整文档下载链接。

总结

Summary

MC 相对于DP(Dynamic Programming, 动态规划)具有很多优点：
可以直接从环境交互中学习(interaction with environment)
不需要完整的模型
不需要学习所有的状态（即不需要引导(bootstrapping)）
能较少地受到违背了马尔科夫特性(Markov property，之后会讲)带来的影响
MC方法提供了一种交替策略评估过程(alternate policy evaluation process)
需要注意的一个问题：需维持足够的探索(maintaining sufficient exploration):为了让策略评估能效力于动作值(action value)，我们必须确保连续的探索，以上两者都是以这个为前提的。

英文原版课件下载：请在后台回复“10703”获取下载链接。

本文由微信公众号机器人学家编译+整理成文。

转载请联系我们获得许可即可，不尊重作者劳动成果的行为会被举报。

手机长按下图二维码即可关注。

登录查看更多

相关内容

马尔科夫链蒙特卡洛采样

关注 317

马尔科夫链蒙特卡洛方法(Markov Chain Monte Carlo)，简称MCMC，产生于19世纪50年代早期，是在贝叶斯理论框架下，通过计算机进行模拟的蒙特卡洛方法(Monte Carlo)。该方法将马尔科夫(Markov)过程引入到Monte Carlo模拟中，实现抽样分布随模拟的进行而改变的动态模拟，弥补了传统的蒙特卡罗积分只能静态模拟的缺陷。MCMC是一种简单有效的计算方法，在很多领域到广泛的应用，如统计物、贝叶斯(Bayes)问题、计算机问题等。

【经典书】机器学习：贝叶斯和优化方法，1075页pdf

专知会员服务

413+阅读 · 2020年6月8日

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日