干货:142页"ICML会议"强化学习笔记整理(2018 & 2019年)-值得细读

2019 年 10 月 13 日 深度强化学习实验室


深度强化学习报道

来源:David Abel

编辑:DeepRL


ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会。ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议。其中强化学习便是该会议很重要的一个话题,每年都有非常多的投稿。本文整理了David Abel总结的ICML2018,2019两年的深度强化学习笔记,详看正文。


1

ICML-2019-RL-Note



前言

作者整理简介: 我在本次会议的RL分场上度过了大部分时间(可惜错过了所有主题演讲), 所以我的大部分反思(和笔记)都集中在RL

  • 关于非策略评估和非策略学习的大量工作(例如,参见Hanna  等人[35],Le等人[49],Fujimoto等人[26],Gottesman等人的工作)等[32]

  •  探索再次成为一个热门话题(参见Mavrin等人[57],Fatemi等人[25],Hazan等人[37],Shani等人[76]的工作)。除了策略评估(以及其他一些评估),这也是RL中的基本问题之一。

  • 一些非常好的工作继续澄清分布式RL [10](参见[74,57,67]的工作)。

  • 作者认为我们需要标准化RL中的评估。并不是说我们只需要一个单一的方法或一个域,而是目前评估协议中有太多差异。


元学习&元强化学习


元学习算法通用方法

  1. Choose a form of Pr(φi | Dtrain i , θ).

  2. Choose how to optimize θ with respect to max-likelihood objective using Dmeta-train.

为什么元强化学习有用?

几乎所有问题都与现有方法的样本效率低下有关。将TRPO应用于真正的机器人时,机器人需要花费数天或数周的时间才能开始取得任何进展(学习步行)。

通常情况下,智能体的目标是学习一个策略最大化累计期望奖励

而且,RL目标的元学习问题是学习,因此,元RL问题如下:

其优化过程如下:

当然元学习有它的优势,也有对应的挑战

挑战1:超量配置:元学习需要任务分配,一些元学习方法可能会过度适合这些任务分配。

挑战2:任务设计:通常必须手动选择这些任务分配,或者它们的多样性不足以鼓励正确的行为。很难以正确的方式选择任务分配!

挑战3:了解哪种算法过度拟合:许多不同的方法(黑盒,基于优化的非参数方法),但是我们不知道哪种算法最容易遭受元过度拟合。



图强化学习


图模型最近在深度学习中特别的人们,然而在强化学习中也是独领风骚:TibGM: A Graphical Model Approach for RL

还有包括分布式强化学习,理论等相关内容,详见文末PDF2019


2

ICML-2018-RL-Note





PDF

Github查看(欢迎star仓库):

https://github.com/NeuronDance/DeepRL/tree/master/DRL-ConferencePaper/ICML/Source


百度云:关注公众并回复:icml


深度强化学习实验室

算法、框架、资料、前沿信息等


GitHub仓库

https://github.com/NeuronDance/DeepRL

欢迎Fork,Star,Pull Request


往期精彩回顾

第1篇:通过深度强化学习实现通用量子控制

第2篇:《深度强化学习》面试题汇总

第3篇:《深度强化学习》招聘汇总(13家企业)

第4篇:解决DRL反馈稀疏问题之HER方法原理代码实现

第5篇:"DeepRacer" ——顶级深度强化学习挑战赛

第6篇:AI Paper | 几个实用工具推荐

第7篇:AI领域:如何做优秀研究并写高水平论文?

第8篇: DeepMind开源三大新框架,DRL落地希望再现!
第9篇: 61篇NIPS2019深度强化学习论文及部分解读
第10篇: OpenSpiel(28种DRL环境+24种DRL算法)
第11篇: 基于模块化和快速原型设计的Huskarl DRL框架
第12篇: DRL在Unity自行车环境中配置与实践
第13篇: 解读72篇DeepMind深度强化学习论文
第14篇: 《AutoML》:一份自动化调参的指导
第15篇: ReinforceJS库(动态展示DP、TD、DQN)
第16篇: 10年NIPS顶会DRL论文(100多篇)汇总(2008-2018年)
第17篇: ICML2019-深度强化学习文章汇总
第18篇: 深度强化学习在阿里巴巴的技术演进
第19篇: 深度强化学习十大原则
第20篇: “超参数”与“网络结构”自动化设置方法---DeepHyper
第21篇: 深度强化学习的加速方法
第22篇: 深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析
登录查看更多
0

相关内容

ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会。ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议。
《强化学习》简介小册,24页pdf
专知会员服务
263+阅读 · 2020年4月19日
近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
专知会员服务
85+阅读 · 2020年1月20日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
Uber AI NeurIPS 2019《元学习meta-learning》教程,附92页PPT下载
专知会员服务
112+阅读 · 2019年12月13日
ICML 2019必看!87页超强干货博士笔记总结
新智元
35+阅读 · 2019年6月17日
ICML2019《元学习》教程与必读论文列表
专知
41+阅读 · 2019年6月16日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
强化学习十大原则
专知
11+阅读 · 2018年9月17日
【ICML2018】63篇强化学习论文全解读
专知
7+阅读 · 2018年7月24日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
22+阅读 · 2018年8月3日
Meta-Learning with Latent Embedding Optimization
Arxiv
6+阅读 · 2018年7月16日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关VIP内容
《强化学习》简介小册,24页pdf
专知会员服务
263+阅读 · 2020年4月19日
近期必读的6篇AI顶会WWW2020【推荐系统】相关论文
专知会员服务
56+阅读 · 2020年2月25日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
169+阅读 · 2020年2月8日
专知会员服务
85+阅读 · 2020年1月20日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
Uber AI NeurIPS 2019《元学习meta-learning》教程,附92页PPT下载
专知会员服务
112+阅读 · 2019年12月13日
相关资讯
ICML 2019必看!87页超强干货博士笔记总结
新智元
35+阅读 · 2019年6月17日
ICML2019《元学习》教程与必读论文列表
专知
41+阅读 · 2019年6月16日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
强化学习十大原则
专知
11+阅读 · 2018年9月17日
【ICML2018】63篇强化学习论文全解读
专知
7+阅读 · 2018年7月24日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
相关论文
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
22+阅读 · 2018年8月3日
Meta-Learning with Latent Embedding Optimization
Arxiv
6+阅读 · 2018年7月16日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
3+阅读 · 2018年1月31日
Top
微信扫码咨询专知VIP会员