没有模型如何进行强化学习——蒙特卡洛方法

2017 年 2 月 21 日 机器人学家 翻译志愿者团队

产业 学术 趣玩

每周推送原创潮流机器人资讯

我们获得授权翻译CMU课程 10703 Deep Reinforcement Learning & Control,这是第四讲。


感谢Katerina Fragkiadaki教授的支持。


翻译贡献者:

李飞腾,HFUT,Mechatronics  (1-9)

李政锴,HIT,CSE (10-16)

王馨,CUHK, rehabilitation robotics (17-21, 39-41)

曹瑾,SJTU,Robotics (22-28)

刘乃龙,SIA, Robotics (29-38)

组长&校对:李宏坤


「机器人学家」授权翻译

本讲

概要

本讲介绍强化学习中的蒙特卡洛方法,即通过试验采样来估计策略优劣。不同于上节课的精确求解法,蒙特卡洛方法并不要求模型已知,因而有更灵活的应用。


应用蒙特卡洛方法的很重要一点是要保证探索性(exploration),为此在训练时往往需要牺牲最优策略,而采用次优但能保证探索的策略。此时我们的策略衡量(Policy Evaluation)得到的不是最优策略的值(value),这是一个值得注意的问题。


如何能一边用次优的策略进行探索,一边计算着最优策略的value?这就是本讲介绍的第二个主题——借助统计学上的重要性采样(importance sampling)来直接衡量最优策略的“异策略方法(off-policy methods)”

目录

Contents

文档

下载

请在后台回复"10703"获取完整文档下载链接。


总结

Summary

  • MC 相对于DP(Dynamic Programming, 动态规划)具有很多优点:

  • 可以直接从环境交互中学习(interaction with environment)

  • 不需要完整的模型

  • 不需要学习所有的状态(即不需要引导(bootstrapping))

  • 能较少地受到违背了马尔科夫特性(Markov property,之后会讲)带来的影响

  • MC方法提供了一种交替策略评估过程(alternate policy evaluation process)

  • 需要注意的一个问题: 需维持足够的探索(maintaining sufficient exploration):为了让策略评估能效力于动作值(action value),我们必须确保连续的探索,以上两者都是以这个为前提的。

                     





英文原版课件下载:请在后台回复“10703”获取下载链接。


本文由微信公众号 机器人学家 编译+整理成文。


转载请联系我们获得许可即可,不尊重作者劳动成果的行为会被举报。



手机长按下图二维码即可关注。


登录查看更多
2

相关内容

马尔科夫链蒙特卡洛方法(Markov Chain Monte Carlo),简称MCMC,产生于19世纪50年代早期,是在贝叶斯理论框架下,通过计算机进行模拟的蒙特卡洛方法(Monte Carlo)。该方法将马尔科夫(Markov)过程引入到Monte Carlo模拟中,实现抽样分布随模拟的进行而改变的动态模拟,弥补了传统的蒙特卡罗积分只能静态模拟的缺陷。MCMC是一种简单有效的计算方法,在很多领域到广泛的应用,如统计物、贝叶斯(Bayes)问题、计算机问题等。
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
404+阅读 · 2020年6月8日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
103+阅读 · 2020年3月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
118+阅读 · 2020年1月15日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
一个强化学习 Q-learning 算法的简明教程
数据挖掘入门与实战
9+阅读 · 2018年3月18日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
7+阅读 · 2018年12月26日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
404+阅读 · 2020年6月8日
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
201+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
103+阅读 · 2020年3月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
118+阅读 · 2020年1月15日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
一个强化学习 Q-learning 算法的简明教程
数据挖掘入门与实战
9+阅读 · 2018年3月18日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员