【ICLR2021】基于返回的对比表征学习在强化学习中的应用

2021 年 2 月 24 日 专知


Return-Based Contrastive Representation Learning for Reinforcement Learning

Authors: Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu


近年来,在深度强化学习(deep reinforcement learning, RL)中,各种辅助任务被提出来加速表示学习和提高样本效率。然而,现有的辅助任务没有考虑到RL问题的特点,是无监督的。通过利用回报这一RL中最重要的反馈信号,我们提出了一种新的辅助任务,迫使学习到的表示区分具有不同回报的状态-行为对。我们的辅助损失在理论上是合理的,以学习捕获一种新的形式的状态-行为抽象的结构的表征,在这种结构下,具有相似回报分布的状态-行为对被聚集在一起。在低数据的情况下,我们的算法在Atari游戏和DeepMind控制套件的复杂任务上优于强大的基线,在与现有的辅助任务相结合的情况下获得了更好的性能。


https://www.zhuanzhi.ai/paper/7c66011b0d7a2fa1fc3825853caf383e


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“RCRL” 可以获取《【ICLR2021】基于返回的对比表征学习在强化学习中的应用》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
13

相关内容

在机器学习中,表征学习或表示学习是允许系统从原始数据中自动发现特征检测或分类所需的表示的一组技术。这取代了手动特征工程,并允许机器学习特征并使用它们执行特定任务。在有监督的表征学习中,使用标记的输入数据来学习特征,包括监督神经网络,多层感知器和(监督)字典学习。在无监督表征学习中,特征是与未标记的输入数据一起学习的,包括字典学习,独立成分分析,自动编码器,矩阵分解和各种形式的聚类。
专知会员服务
18+阅读 · 2021年2月8日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
46+阅读 · 2020年10月26日
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
79+阅读 · 2020年6月11日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
Arxiv
57+阅读 · 2021年5月3日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
136+阅读 · 2018年10月8日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关论文
Arxiv
57+阅读 · 2021年5月3日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
136+阅读 · 2018年10月8日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
11+阅读 · 2018年4月25日
Top
微信扫码咨询专知VIP会员