ICML2018强化学习部分总结(1)

会员服务 ·

ICML2018强化学习部分总结(1)

2018 年 7 月 22 日 深度强化学习实验室

最近由于个人比较忙的原因，文章更新速度有点慢，还望大家谅解！今天主要分享一下前沿动态，不更新算法讲解！

人工智能的发展方向，基本可以从每年顶会(ICML, NPIS, CVPR)上可以看出，今年ICML于７月10号在著名的瑞典斯德哥尔摩举行，说起斯德哥尔摩，唯一能让我想起的就是＂斯德哥尔摩综合征＂，自行google. 下面进入主题．

本文是根据David Abel 的笔进行整理，原英文见文末引用, ICML中关于ＲＬ的内容在第2,3,4,6天，

（１）基于模型的RL救援(Model-Based RL To The Rescue)

主要思路：收集一些模拟数据，应该有

一个想法是通过监督学习来适应动态：

然后，解决近似问题，与LQR相同，但使用φ作为模型。

这里的难点是我们解决的控制问题是什么？我们知道我们的模型并不完美。从而

我们需要像Robust Control / Coarse-ID控制这样的东西。

在Coarse-ID控制中：

• 解决受的影响，B未知。

• 然后，收集数据：

• 估计B：

• 估计

然后，我们可以将其转换为强大的优化问题：

受x = Bu + x0的影响。然后我们可以通过三角不等式将其放宽到一个凸问题：

受同样的约束。他们展示了如何将估计误差转换为LQR系统中的控制误差 - 有点像来自Yields基于稳健模型的控制的模拟引理：显示了一些实验结果，一直很好（肯定比无模型更好）。

回归线性化原则：现在，当我们消除线性时会发生什么？（QR？）。他们尝试在MuJocoo上运行随机搜索算法，并发现它做得更好（或至少同样好）的自然灰度法和TRPO。 Bens'提出的前进方向：使用模型。特别是模型预测控制（MPC）：

想法：计划在短时间内，获得反馈，重新计划。

结论和剩下要做的事情：

• 粗ID结果是否最佳？甚至w.r.t. 问题参数？

• 我们能否针对各种控制问题获得紧张和较低的样本复杂性？

• 自适应和迭代学习控制

• 非线性模型，约束和不正确的学习。

• 安全探索，了解不确定的环境。

所以，有很多令人兴奋的事情要做！而且不只是RL而不仅仅是控制理论。也许我们需要一个更具包容性的新名称，如“Actionable Intelligence”。所以，得出结论：

本部分完，

这是原作者英文版，地址：https://pan.baidu.com/s/1R8LtR262FKoHOSrXTj4f2Q，密码：jz9z

顺便问一下，谁知道公众号怎么输入公式，不能输入公式太烦了，麻烦请私信！

登录查看更多

相关内容

ICML

关注 422

ICML 是 International Conference on Machine Learning的缩写，即国际机器学习大会。ICML如今已发展为由国际机器学习学会（IMLS）主办的年度机器学习国际顶级会议。

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

【开放新书】不确定性决策与强化学习，267页pdf，瑞典查尔姆斯理工大学

专知会员服务

234+阅读 · 2020年4月28日

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

MIT新书《强化学习与最优控制》

专知会员服务

282+阅读 · 2019年10月9日

【干货】ICML2018：63篇强化学习论文精华解读！

新智元

7+阅读 · 2018年7月24日

【ICML2018】63篇强化学习论文全解读

专知

7+阅读 · 2018年7月24日

【伯克利大学ICML2018强化学习80页教程】【附下载】

专知

10+阅读 · 2018年7月21日

【干货】强化学习介绍

专知

12+阅读 · 2018年6月24日

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

MetaSelector: Meta-Learning for Recommendation with User-Level Adaptive Model Selection

Arxiv

4+阅读 · 2020年2月13日

Meta-Learning with Implicit Gradients

Arxiv

13+阅读 · 2019年9月10日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

LA-LDA: A Limited Attention Topic Model for Social Recommendation

Arxiv

3+阅读 · 2013年1月26日

VIP会员