【ICLR2021】基于返回的对比表征学习在强化学习中的应用

2021 年 2 月 24 日 专知

Return-Based Contrastive Representation Learning for Reinforcement Learning

Authors: Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu

近年来，在深度强化学习(deep reinforcement learning, RL)中，各种辅助任务被提出来加速表示学习和提高样本效率。然而，现有的辅助任务没有考虑到RL问题的特点，是无监督的。通过利用回报这一RL中最重要的反馈信号，我们提出了一种新的辅助任务，迫使学习到的表示区分具有不同回报的状态-行为对。我们的辅助损失在理论上是合理的，以学习捕获一种新的形式的状态-行为抽象的结构的表征，在这种结构下，具有相似回报分布的状态-行为对被聚集在一起。在低数据的情况下，我们的算法在Atari游戏和DeepMind控制套件的复杂任务上优于强大的基线，在与现有的辅助任务相结合的情况下获得了更好的性能。

https://www.zhuanzhi.ai/paper/7c66011b0d7a2fa1fc3825853caf383e

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“RCRL” 可以获取《【ICLR2021】基于返回的对比表征学习在强化学习中的应用》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

表征学习

关注 151

在机器学习中，表征学习或表示学习是允许系统从原始数据中自动发现特征检测或分类所需的表示的一组技术。这取代了手动特征工程，并允许机器学习特征并使用它们执行特定任务。在有监督的表征学习中，使用标记的输入数据来学习特征，包括监督神经网络，多层感知器和（监督）字典学习。在无监督表征学习中，特征是与未标记的输入数据一起学习的，包括字典学习，独立成分分析，自动编码器，矩阵分解和各种形式的聚类。

【ICLR2021】基于返回的对比表示征学习在强化学习中的应用

专知会员服务

17+阅读 · 2021年2月24日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

15+阅读 · 2021年2月15日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【ICLR2021】基于图信息瓶颈的子图识别

专知会员服务

19+阅读 · 2021年2月8日