干货:142页"ICML会议"强化学习笔记整理(2018 & 2019年)-值得细读 - 专知

会员服务 ·

0

干货:142页"ICML会议"强化学习笔记整理(2018 & 2019年)-值得细读

2019 年 10 月 13 日 深度强化学习实验室

深度强化学习报道

来源：David Abel

编辑：DeepRL

ICML 是 International Conference on Machine Learning的缩写，即国际机器学习大会。ICML如今已发展为由国际机器学习学会（IMLS）主办的年度机器学习国际顶级会议。其中强化学习便是该会议很重要的一个话题，每年都有非常多的投稿。本文整理了David Abel总结的ICML2018,2019两年的深度强化学习笔记，详看正文。

1

ICML-2019-RL-Note

前言

作者整理简介: 我在本次会议的RL分场上度过了大部分时间（可惜错过了所有主题演讲), 所以我的大部分反思（和笔记）都集中在RL：

关于非策略评估和非策略学习的大量工作（例如，参见Hanna 等人[35]，Le等人[49]，Fujimoto等人[26]，Gottesman等人的工作）等[32]
探索再次成为一个热门话题（参见Mavrin等人[57]，Fatemi等人[25]，Hazan等人[37]，Shani等人[76]的工作）。除了策略评估（以及其他一些评估），这也是RL中的基本问题之一。
一些非常好的工作继续澄清分布式RL [10]（参见[74，57，67]的工作）。
作者认为我们需要标准化RL中的评估。并不是说我们只需要一个单一的方法或一个域，而是目前评估协议中有太多差异。

元学习&元强化学习

元学习算法通用方法

Choose a form of Pr(φi | Dtrain i , θ).
Choose how to optimize θ with respect to max-likelihood objective using Dmeta-train.

为什么元强化学习有用？

几乎所有问题都与现有方法的样本效率低下有关。将TRPO应用于真正的机器人时，机器人需要花费数天或数周的时间才能开始取得任何进展（学习步行）。

通常情况下，智能体的目标是学习一个策略最大化累计期望奖励

而且，RL目标的元学习问题是学习，因此，元RL问题如下：

其优化过程如下：

当然元学习有它的优势，也有对应的挑战

挑战1：超量配置：元学习需要任务分配，一些元学习方法可能会过度适合这些任务分配。

挑战2：任务设计：通常必须手动选择这些任务分配，或者它们的多样性不足以鼓励正确的行为。很难以正确的方式选择任务分配！

挑战3：了解哪种算法过度拟合：许多不同的方法（黑盒，基于优化的非参数方法），但是我们不知道哪种算法最容易遭受元过度拟合。

图强化学习

图模型最近在深度学习中特别的人们，然而在强化学习中也是独领风骚：TibGM: A Graphical Model Approach for RL

还有包括分布式强化学习，理论等相关内容，详见文末PDF2019

2

ICML-2018-RL-Note

PDF

Github查看(欢迎star仓库):

https://github.com/NeuronDance/DeepRL/tree/master/DRL-ConferencePaper/ICML/Source

百度云：关注公众并回复：icml

深度强化学习实验室

算法、框架、资料、前沿信息等

GitHub仓库

https://github.com/NeuronDance/DeepRL

欢迎Fork,Star,Pull Request

▼

往期精彩回顾

▼

第1篇：通过深度强化学习实现通用量子控制

第2篇：《深度强化学习》面试题汇总

第3篇：《深度强化学习》招聘汇总(13家企业）

第4篇：解决DRL反馈稀疏问题之HER方法原理代码实现

第5篇："DeepRacer" ——顶级深度强化学习挑战赛

第6篇：AI Paper | 几个实用工具推荐

第7篇：AI领域：如何做优秀研究并写高水平论文？

第8篇： DeepMind开源三大新框架，DRL落地希望再现！

第9篇： 61篇NIPS2019深度强化学习论文及部分解读

第10篇： OpenSpiel(28种DRL环境+24种DRL算法)

第11篇：基于模块化和快速原型设计的Huskarl DRL框架

第12篇： DRL在Unity自行车环境中配置与实践

第13篇：解读72篇DeepMind深度强化学习论文

第14篇：《AutoML》：一份自动化调参的指导

第15篇： ReinforceJS库（动态展示DP、TD、DQN）

第16篇： 10年NIPS顶会DRL论文(100多篇)汇总（2008-2018年）

第17篇： ICML2019-深度强化学习文章汇总

第18篇：深度强化学习在阿里巴巴的技术演进

第19篇：深度强化学习十大原则

第20篇： “超参数”与“网络结构”自动化设置方法---DeepHyper

第21篇：深度强化学习的加速方法

第22篇：深入浅出解读"多巴胺（Dopamine）论文"、环境配置和实例分析

登录查看更多

0

相关内容

ICML

ICML 是 International Conference on Machine Learning的缩写，即国际机器学习大会。ICML如今已发展为由国际机器学习学会（IMLS）主办的年度机器学习国际顶级会议。

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

专知会员服务

57+阅读 · 2020年2月25日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

88+阅读 · 2020年1月20日

近期必读的7篇ICML 2019【Meta-Learning（元学习）】相关论文和代码

近期必读的7篇ICML 2019【Meta-Learning（元学习）】相关论文和代码

专知会员服务

37+阅读 · 2020年1月11日

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

专知会员服务

66+阅读 · 2020年1月10日

【2019机器学习大总结】机器学习和机器人:我的2019年领域状态

【2019机器学习大总结】机器学习和机器人:我的2019年领域状态

专知会员服务

54+阅读 · 2019年12月31日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

专知会员服务

113+阅读 · 2019年12月13日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

强化学习与决策：RLDM2019会议笔记 - 附65页笔记PDF

强化学习与决策：RLDM2019会议笔记 - 附65页笔记PDF

专知

22+阅读 · 2019年7月15日

ICML 2019必看！87页超强干货博士笔记总结

ICML 2019必看！87页超强干货博士笔记总结

新智元

35+阅读 · 2019年6月17日

ICML2019《元学习》教程与必读论文列表

ICML2019《元学习》教程与必读论文列表

专知

42+阅读 · 2019年6月16日

强化学习精品书籍

强化学习精品书籍

平均机器

26+阅读 · 2019年1月2日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

【干货】ICML2018：63篇强化学习论文精华解读！

【干货】ICML2018：63篇强化学习论文精华解读！

新智元

7+阅读 · 2018年7月24日

【ICML2018】63篇强化学习论文全解读

【ICML2018】63篇强化学习论文全解读

专知

7+阅读 · 2018年7月24日

干货｜浅谈强化学习的方法及学习路线

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

Sequential Scenario-Specific Meta Learner for Online Recommendation

Sequential Scenario-Specific Meta Learner for Online Recommendation

Arxiv

16+阅读 · 2019年6月2日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

Causal Embeddings for Recommendation

Arxiv

23+阅读 · 2018年8月3日

Meta-Learning with Latent Embedding Optimization

Meta-Learning with Latent Embedding Optimization

Arxiv

6+阅读 · 2018年7月16日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

Parameter Space Noise for Exploration

Arxiv

3+阅读 · 2018年1月31日

VIP会员

相关主题

深度强化学习

相关VIP内容

《强化学习》简介小册，24页pdf

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

近期必读的6篇AI顶会WWW2020【推荐系统】相关论文

专知会员服务

57+阅读 · 2020年2月25日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

88+阅读 · 2020年1月20日

近期必读的7篇ICML 2019【Meta-Learning（元学习）】相关论文和代码

近期必读的7篇ICML 2019【Meta-Learning（元学习）】相关论文和代码

专知会员服务

37+阅读 · 2020年1月11日

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

必读的10篇 ICML 2019【图神经网络（GNN）】相关论文和代码

专知会员服务

66+阅读 · 2020年1月10日

【2019机器学习大总结】机器学习和机器人:我的2019年领域状态

【2019机器学习大总结】机器学习和机器人:我的2019年领域状态

专知会员服务

54+阅读 · 2019年12月31日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

专知会员服务

113+阅读 · 2019年12月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

强化学习与决策：RLDM2019会议笔记 - 附65页笔记PDF

强化学习与决策：RLDM2019会议笔记 - 附65页笔记PDF

专知

22+阅读 · 2019年7月15日

ICML 2019必看！87页超强干货博士笔记总结

ICML 2019必看！87页超强干货博士笔记总结

新智元

35+阅读 · 2019年6月17日

ICML2019《元学习》教程与必读论文列表

ICML2019《元学习》教程与必读论文列表

专知

42+阅读 · 2019年6月16日

强化学习精品书籍

强化学习精品书籍

平均机器

26+阅读 · 2019年1月2日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

【干货】ICML2018：63篇强化学习论文精华解读！

【干货】ICML2018：63篇强化学习论文精华解读！

新智元

7+阅读 · 2018年7月24日

【ICML2018】63篇强化学习论文全解读

【ICML2018】63篇强化学习论文全解读

专知

7+阅读 · 2018年7月24日

干货｜浅谈强化学习的方法及学习路线

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

相关论文

Sequential Scenario-Specific Meta Learner for Online Recommendation

Sequential Scenario-Specific Meta Learner for Online Recommendation

Arxiv

16+阅读 · 2019年6月2日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Meta-Learning: A Survey

Arxiv

136+阅读 · 2018年10月8日

Causal Embeddings for Recommendation

Arxiv

23+阅读 · 2018年8月3日

Meta-Learning with Latent Embedding Optimization

Meta-Learning with Latent Embedding Optimization

Arxiv

6+阅读 · 2018年7月16日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

Parameter Space Noise for Exploration

Arxiv

3+阅读 · 2018年1月31日

大家都在搜

软件无线电

CMU博士论文

无人机集群

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员