【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

2021 年 2 月 11 日 专知

作为一种新颖的范式,可以让智能体以完全不与环境交互的方式快速适应新的未知任务,极大地提升了强化学习算法在真实世界中的应用范围和价值。围绕这一问题目前的相关研究还较少,并且有两个主要的技术难点。其一,离线强化学习中通常会因为训练数据与所学习策略的状态-动作对的分布偏移而产生较大误差,甚至导致价值函数的发散。其二,元强化学习要求在学习控制策略的同时能高效且鲁棒地进行任务推断(task inference)。


在本文中,我们将针对离线策略学习的行为正则化(behavior regularization)方法,与一个用于任务推断的确定性的任务信息编码器进行结合来解决上述的两大难点。我们在有界的任务信息嵌入空间中引入了一个全新的负指数距离度量,并且将其与控制策略的贝尔曼方程的梯度解耦进行学习。我们分析验证了在该设定下,采用一些简单的算法设计即可带来相比经典元强化学习及度量学习的效果的明显提升。据我们所知,本方法是第一个端到端、无模型的离线元强化学习算法,计算效率高并且在多个元强化学习实验环境上表现出优于以往方法的性能。


本方法赋予强化学习算法进行离线学习及高效迁移的能力,离线意味着不需要在真实环境中进行探索、交互,高效迁移意味着算法的鲁棒性及数据利用效率更高。我们的方法实现了同时具备上述两种能力的端到端的算法训练框架,可以极大扩展强化学习算法的实际应用范围:例如推动其在诸如医疗、农业、自动驾驶等数据稀缺或极度重视安全性的相关领域的实际应用,包括构建定制化的患者治疗方案、针对特定气候/作物品种的温室种植策略等。


https://www.zhuanzhi.ai/paper/af16ee8631cae148425f27ba32b6f673


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DMLBR” 可以获取《【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
5

相关内容

Meta RL(Meta Reinforcement Learning)是Meta Learning应用到Reinforcement Learning的一个研究方向,核心的想法就是希望AI在学习大量的RL任务中获取足够的先验知识Prior Knowledge然后在面对新的RL任务时能够 学的更快,学的更好,能够自适应新环境!
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
53+阅读 · 2021年3月31日
专知会员服务
15+阅读 · 2021年3月4日
专知会员服务
17+阅读 · 2021年2月8日
专知会员服务
20+阅读 · 2021年2月7日
【WWW2021】多视角图对比学习的药物药物交互预测
专知会员服务
53+阅读 · 2021年1月29日
专知会员服务
41+阅读 · 2021年1月18日
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
39+阅读 · 2020年12月19日
【NeurIPS2020-FB】学习具有可解码信息瓶颈的最优表示
专知会员服务
22+阅读 · 2020年10月13日
专知会员服务
85+阅读 · 2020年1月20日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
图神经网络架构,稳定性,可迁移性
专知
5+阅读 · 2020年8月8日
【ICML 2020 】小样本学习即领域迁移
专知
5+阅读 · 2020年6月26日
【基于元学习的推荐系统】5篇相关论文
专知
9+阅读 · 2020年1月20日
Arxiv
5+阅读 · 2020年6月16日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
4+阅读 · 2019年4月9日
Learning Recommender Systems from Multi-Behavior Data
Arxiv
7+阅读 · 2018年11月29日
VIP会员
相关VIP内容
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
53+阅读 · 2021年3月31日
专知会员服务
15+阅读 · 2021年3月4日
专知会员服务
17+阅读 · 2021年2月8日
专知会员服务
20+阅读 · 2021年2月7日
【WWW2021】多视角图对比学习的药物药物交互预测
专知会员服务
53+阅读 · 2021年1月29日
专知会员服务
41+阅读 · 2021年1月18日
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
39+阅读 · 2020年12月19日
【NeurIPS2020-FB】学习具有可解码信息瓶颈的最优表示
专知会员服务
22+阅读 · 2020年10月13日
专知会员服务
85+阅读 · 2020年1月20日
Top
微信扫码咨询专知VIP会员