【ICML2021】授权驱动探索的元强化学习 - 专知VIP

会员服务 ·

3

元强化学习 · ICML 2021 ·

2021 年 5 月 24 日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

元强化学习(Meta - reinforcement learning, Meta - rl)从以前的任务中提取知识，实现对新任务的快速适应。尽管最近取得了一些进展，但对元强化学习的有效探索仍然是稀疏奖励任务中的一个关键挑战，因为它需要在元训练和适应中快速找到与任务相关的信息性经验。针对这一挑战，我们明确建模了一个元强化学习的探索策略学习问题，该问题与开发策略学习分离，并引入了一个新的赋权驱动的探索目标，该目标旨在最大限度地获取信息以进行任务识别。我们得到了相应的内在奖励，并开发了一个新的非策略元强化学习框架，通过共享任务推理知识，有效地学习独立的上下文感知的探索和开发策略。实验结果表明，在不同的稀疏奖励MuJoCo运动任务和更复杂的稀疏奖励元世界任务中，我们的meta-RL方法显著优于最先进的基线。

https://www.zhuanzhi.ai/paper/8972d5b6f921acf471ca8b89afc45759

成为VIP会员查看完整内容

28

相关内容

元强化学习

元强化学习

Meta RL（Meta Reinforcement Learning）是Meta Learning应用到Reinforcement Learning的一个研究方向，核心的想法就是希望AI在学习大量的RL任务中获取足够的先验知识Prior Knowledge然后在面对新的RL任务时能够学的更快，学的更好，能够自适应新环境！

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

【ICML2021】多任务学习与元学习的衔接:面向高效训练与有效适应

专知会员服务

33+阅读 · 2021年6月18日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】随机迭代图匹配

专知会员服务

25+阅读 · 2021年6月8日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】来自观察的跨域模仿

【ICML2021】来自观察的跨域模仿

专知会员服务

18+阅读 · 2021年5月25日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

专知会员服务

42+阅读 · 2021年1月11日

【AAAI2021】自监督对应学习的对比转换

专知会员服务

20+阅读 · 2020年12月11日

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

DataFunTalk

9+阅读 · 2020年7月3日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

元强化学习迎来一盆冷水：不比元Q学习好多少

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论

12+阅读 · 2020年2月27日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

AI科技评论

7+阅读 · 2019年6月17日

在稀疏和欠明确奖励中学习泛化

在稀疏和欠明确奖励中学习泛化

谷歌开发者

6+阅读 · 2019年3月20日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知

12+阅读 · 2018年12月22日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【深度】Google提出「自监督」表征学习方法，让智能体通过「观察」认识世界

【深度】Google提出「自监督」表征学习方法，让智能体通过「观察」认识世界

GAN生成式对抗网络

7+阅读 · 2018年5月26日

Safe Exploration by Solving Early Terminated MDP

Arxiv

0+阅读 · 2021年7月9日

iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes

Arxiv

0+阅读 · 2021年7月8日

Density Constrained Reinforcement Learning

Arxiv

6+阅读 · 2021年6月24日

Exploiting Diverse Characteristics and Adversarial Ambivalence for Domain Adaptive Segmentation

Exploiting Diverse Characteristics and Adversarial Ambivalence for Domain Adaptive Segmentation

Arxiv

9+阅读 · 2020年12月10日

Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning

Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning

Arxiv

10+阅读 · 2020年3月12日

Fast AutoAugment

Fast AutoAugment

Arxiv

5+阅读 · 2019年5月1日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Multi-task Deep Reinforcement Learning with PopArt

Multi-task Deep Reinforcement Learning with PopArt

Arxiv

4+阅读 · 2018年9月12日

Hierarchical Reinforcement Learning with Deep Nested Agents

Arxiv

3+阅读 · 2018年5月18日

VR Goggles for Robots: Real-to-sim Domain Adaptation for Visual Control

Arxiv

5+阅读 · 2018年2月1日

VIP会员

相关主题

元强化学习

相关VIP内容

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

【ICML2021】多任务学习与元学习的衔接:面向高效训练与有效适应

专知会员服务

33+阅读 · 2021年6月18日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】随机迭代图匹配

专知会员服务

25+阅读 · 2021年6月8日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】来自观察的跨域模仿

【ICML2021】来自观察的跨域模仿

专知会员服务

18+阅读 · 2021年5月25日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

专知会员服务

42+阅读 · 2021年1月11日

【AAAI2021】自监督对应学习的对比转换

专知会员服务

20+阅读 · 2020年12月11日

热门VIP内容

开通专知VIP会员享更多权益服务

面向向量的机器学习系统：跨栈方法

【ICCV2025】SO(3) 上连续非保守动力系统的预测

【ICCV2025】Lay2Story：扩展扩散 Transformer 以实现可切换布局的故事生成

人工智能治理全景综述

相关资讯

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

DataFunTalk

9+阅读 · 2020年7月3日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

元强化学习迎来一盆冷水：不比元Q学习好多少

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论

12+阅读 · 2020年2月27日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

AI科技评论

7+阅读 · 2019年6月17日

在稀疏和欠明确奖励中学习泛化

在稀疏和欠明确奖励中学习泛化

谷歌开发者

6+阅读 · 2019年3月20日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知

12+阅读 · 2018年12月22日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【深度】Google提出「自监督」表征学习方法，让智能体通过「观察」认识世界

【深度】Google提出「自监督」表征学习方法，让智能体通过「观察」认识世界

GAN生成式对抗网络

7+阅读 · 2018年5月26日

相关论文

Safe Exploration by Solving Early Terminated MDP

Arxiv

0+阅读 · 2021年7月9日

iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes

Arxiv

0+阅读 · 2021年7月8日

Density Constrained Reinforcement Learning

Arxiv

6+阅读 · 2021年6月24日

Exploiting Diverse Characteristics and Adversarial Ambivalence for Domain Adaptive Segmentation

Exploiting Diverse Characteristics and Adversarial Ambivalence for Domain Adaptive Segmentation

Arxiv

9+阅读 · 2020年12月10日

Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning

Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning

Arxiv

10+阅读 · 2020年3月12日

Fast AutoAugment

Fast AutoAugment

Arxiv

5+阅读 · 2019年5月1日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Multi-task Deep Reinforcement Learning with PopArt

Multi-task Deep Reinforcement Learning with PopArt

Arxiv

4+阅读 · 2018年9月12日

Hierarchical Reinforcement Learning with Deep Nested Agents

Arxiv

3+阅读 · 2018年5月18日

VR Goggles for Robots: Real-to-sim Domain Adaptation for Visual Control

Arxiv

5+阅读 · 2018年2月1日

微信扫码咨询专知VIP会员