作为一种新颖的范式,可以让智能体以完全不与环境交互的方式快速适应新的未知任务,极大地提升了强化学习算法在真实世界中的应用范围和价值。围绕这一问题目前的相关研究还较少,并且有两个主要的技术难点。其一,离线强化学习中通常会因为训练数据与所学习策略的状态-动作对的分布偏移而产生较大误差,甚至导致价值函数的发散。其二,元强化学习要求在学习控制策略的同时能高效且鲁棒地进行任务推断(task inference)。

在本文中,我们将针对离线策略学习的行为正则化(behavior regularization)方法,与一个用于任务推断的确定性的任务信息编码器进行结合来解决上述的两大难点。我们在有界的任务信息嵌入空间中引入了一个全新的负指数距离度量,并且将其与控制策略的贝尔曼方程的梯度解耦进行学习。我们分析验证了在该设定下,采用一些简单的算法设计即可带来相比经典元强化学习及度量学习的效果的明显提升。据我们所知,本方法是第一个端到端、无模型的离线元强化学习算法,计算效率高并且在多个元强化学习实验环境上表现出优于以往方法的性能。

本方法赋予强化学习算法进行离线学习及高效迁移的能力,离线意味着不需要在真实环境中进行探索、交互,高效迁移意味着算法的鲁棒性及数据利用效率更高。我们的方法实现了同时具备上述两种能力的端到端的算法训练框架,可以极大扩展强化学习算法的实际应用范围:例如推动其在诸如医疗、农业、自动驾驶等数据稀缺或极度重视安全性的相关领域的实际应用,包括构建定制化的患者治疗方案、针对特定气候/作物品种的温室种植策略等。

https://www.zhuanzhi.ai/paper/af16ee8631cae148425f27ba32b6f673

成为VIP会员查看完整内容
16

相关内容

Meta RL(Meta Reinforcement Learning)是Meta Learning应用到Reinforcement Learning的一个研究方向,核心的想法就是希望AI在学习大量的RL任务中获取足够的先验知识Prior Knowledge然后在面对新的RL任务时能够 学的更快,学的更好,能够自适应新环境!
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
55+阅读 · 2021年3月31日
专知会员服务
34+阅读 · 2021年2月9日
专知会员服务
18+阅读 · 2021年2月8日
专知会员服务
26+阅读 · 2021年2月2日
【AAAI2021】通过离散优化的可解释序列分类
专知会员服务
17+阅读 · 2020年12月5日
专知会员服务
45+阅读 · 2020年10月22日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
【基于元学习的推荐系统】5篇相关论文
专知
11+阅读 · 2020年1月20日
解耦强化学习的值函数学习
CreateAMind
6+阅读 · 2019年9月5日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
6+阅读 · 2018年2月8日
VIP会员
相关VIP内容
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
55+阅读 · 2021年3月31日
专知会员服务
34+阅读 · 2021年2月9日
专知会员服务
18+阅读 · 2021年2月8日
专知会员服务
26+阅读 · 2021年2月2日
【AAAI2021】通过离散优化的可解释序列分类
专知会员服务
17+阅读 · 2020年12月5日
专知会员服务
45+阅读 · 2020年10月22日
微信扫码咨询专知VIP会员