作为人类,我们的目标和环境在我们的一生中不断变化,这是基于我们的经验、行动以及内在和外在的驱动力。相反,典型的强化学习问题设置考虑的决策过程是跨情景的静态过程。我们能不能开发一种强化学习算法来应对前者中更现实的问题设置的持续变化?虽然策略上的算法(如策略梯度)原则上可以扩展到非平稳设置,但更有效的非策略算法(在学习时回放过去的经验)却不能这么说。在这项工作中,我们形式化了这个问题设置,并借鉴了在线学习和概率推理文献的思想,得出了一个非策略RL算法,可以推理和处理这种终身非平稳性。我们的方法利用潜在变量模型从当前和过去的经验中学习环境的表示,并使用该表示执行非策略RL。我们进一步介绍了几个显示终生非平稳性的模拟环境,并根据经验发现,我们的方法大大优于那些不考虑环境变化的方法。

https://proceedings.mlr.press/v139/xie21c

成为VIP会员查看完整内容
14

相关内容

专知会员服务
23+阅读 · 2021年9月25日
专知会员服务
14+阅读 · 2021年9月23日
专知会员服务
33+阅读 · 2021年9月18日
专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
13+阅读 · 2021年8月29日
专知会员服务
74+阅读 · 2021年7月21日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
37+阅读 · 2021年6月3日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
81+阅读 · 2021年5月10日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
8+阅读 · 2018年7月12日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
相关VIP内容
专知会员服务
23+阅读 · 2021年9月25日
专知会员服务
14+阅读 · 2021年9月23日
专知会员服务
33+阅读 · 2021年9月18日
专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
13+阅读 · 2021年8月29日
专知会员服务
74+阅读 · 2021年7月21日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
37+阅读 · 2021年6月3日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
81+阅读 · 2021年5月10日
微信扫码咨询专知VIP会员