【ICML2021】连续结构非平稳性中的深度强化学习 - 专知VIP

会员服务 ·

2

深度强化学习 ·

2021 年 9 月 25 日

【ICML2021】连续结构非平稳性中的深度强化学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

作为人类，我们的目标和环境在我们的一生中不断变化，这是基于我们的经验、行动以及内在和外在的驱动力。相反，典型的强化学习问题设置考虑的决策过程是跨情景的静态过程。我们能不能开发一种强化学习算法来应对前者中更现实的问题设置的持续变化?虽然策略上的算法(如策略梯度)原则上可以扩展到非平稳设置，但更有效的非策略算法(在学习时回放过去的经验)却不能这么说。在这项工作中，我们形式化了这个问题设置，并借鉴了在线学习和概率推理文献的思想，得出了一个非策略RL算法，可以推理和处理这种终身非平稳性。我们的方法利用潜在变量模型从当前和过去的经验中学习环境的表示，并使用该表示执行非策略RL。我们进一步介绍了几个显示终生非平稳性的模拟环境，并根据经验发现，我们的方法大大优于那些不考虑环境变化的方法。

https://proceedings.mlr.press/v139/xie21c

成为VIP会员查看完整内容

15

相关内容

[ICML2021]记忆高效在线元学习

专知会员服务

25+阅读 · 2021年9月25日

【ICML2021】学习权衡不完美的示范

专知会员服务

15+阅读 · 2021年9月23日

【ICML2021】贝叶斯结构自适应的持续学习

专知会员服务

35+阅读 · 2021年9月18日

【ICML2021】逆约束强化学习

专知会员服务

33+阅读 · 2021年9月7日

【ICML2021】基于子空间的随机几何图并集的谱方法理论

专知会员服务

15+阅读 · 2021年8月29日

【ICML2021】深度架构持续学习，127页ppt

专知会员服务

77+阅读 · 2021年7月21日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】数据表示的几何评估

专知会员服务

38+阅读 · 2021年6月3日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

元强化学习迎来一盆冷水：不比元Q学习好多少

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论

12+阅读 · 2020年2月27日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

促使强化学习智能体持续探索环境的新方法：利用情景记忆激发好奇心

促使强化学习智能体持续探索环境的新方法：利用情景记忆激发好奇心

论智

8+阅读 · 2018年10月25日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

人工智能学家

4+阅读 · 2017年12月2日

【深度强化学习】深度强化学习揭秘

【深度强化学习】深度强化学习揭秘

产业智能官

21+阅读 · 2017年11月13日

Aligning an optical interferometer with beam divergence control and continuous action space

Arxiv

0+阅读 · 2021年11月16日

A Survey on Reinforcement Learning for Recommender Systems

Arxiv

22+阅读 · 2021年9月22日

A Survey of Deep Reinforcement Learning in Recommender Systems: A Systematic Review and Future Directions

Arxiv

14+阅读 · 2021年9月8日

Efficient Probabilistic Logic Reasoning with Graph Neural Networks

Arxiv

4+阅读 · 2020年2月4日

Heterogeneous Deep Graph Infomax

Heterogeneous Deep Graph Infomax

Arxiv

12+阅读 · 2019年11月19日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Domain Specific Approximation for Object Detection

Arxiv

5+阅读 · 2018年10月4日

Visual Reinforcement Learning with Imagined Goals

Arxiv

8+阅读 · 2018年7月12日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

VIP会员

相关主题

深度强化学习

相关VIP内容

[ICML2021]记忆高效在线元学习

专知会员服务

25+阅读 · 2021年9月25日

【ICML2021】学习权衡不完美的示范

专知会员服务

15+阅读 · 2021年9月23日

【ICML2021】贝叶斯结构自适应的持续学习

专知会员服务

35+阅读 · 2021年9月18日

【ICML2021】逆约束强化学习

专知会员服务

33+阅读 · 2021年9月7日

【ICML2021】基于子空间的随机几何图并集的谱方法理论

专知会员服务

15+阅读 · 2021年8月29日

【ICML2021】深度架构持续学习，127页ppt

专知会员服务

77+阅读 · 2021年7月21日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】数据表示的几何评估

专知会员服务

38+阅读 · 2021年6月3日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

GPT-5如何对齐？从硬性拒绝到安全完成：走向以输出为中心的安全训练

【伯克利博士论文】超越人类监督的视觉智能

【ICCV2025】SO(3) 上连续非保守动力系统的预测

2025年中国数据要素行业发展研究报告

相关资讯

元强化学习迎来一盆冷水：不比元Q学习好多少

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论

12+阅读 · 2020年2月27日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

促使强化学习智能体持续探索环境的新方法：利用情景记忆激发好奇心

促使强化学习智能体持续探索环境的新方法：利用情景记忆激发好奇心

论智

8+阅读 · 2018年10月25日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

入门 | 从Q学习到DDPG，一文简述多种强化学习算法

机器之心

17+阅读 · 2018年1月21日

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

CICC科普栏目｜如何让机器人自主行动？伯克利利用神经网络动力学实现基于模型的强化学习

人工智能学家

4+阅读 · 2017年12月2日

【深度强化学习】深度强化学习揭秘

【深度强化学习】深度强化学习揭秘

产业智能官

21+阅读 · 2017年11月13日

相关论文

Aligning an optical interferometer with beam divergence control and continuous action space

Arxiv

0+阅读 · 2021年11月16日

A Survey on Reinforcement Learning for Recommender Systems

Arxiv

22+阅读 · 2021年9月22日

A Survey of Deep Reinforcement Learning in Recommender Systems: A Systematic Review and Future Directions

Arxiv

14+阅读 · 2021年9月8日

Efficient Probabilistic Logic Reasoning with Graph Neural Networks

Arxiv

4+阅读 · 2020年2月4日

Heterogeneous Deep Graph Infomax

Heterogeneous Deep Graph Infomax

Arxiv

12+阅读 · 2019年11月19日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Domain Specific Approximation for Object Detection

Arxiv

5+阅读 · 2018年10月4日

Visual Reinforcement Learning with Imagined Goals

Arxiv

8+阅读 · 2018年7月12日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

微信扫码咨询专知VIP会员