【ICML2020】用于强化学习的对比无监督表示嵌入 - 专知

会员服务 ·

0

【ICML2020】用于强化学习的对比无监督表示嵌入

2020 年 7 月 6 日 专知

论文标题：CURL: Contrastive Unsupervised Representations for ReinforcementLearning（CURL：用于强化学习的对比无监督表示）

论文来源：ICML 2020

论文下载：https://www.zhuanzhi.ai/paper/6fb5994c1f98b326b45fb83ce319f0b9

代码链接：https://github.com/MishaLaskin/curl

摘要：

我们提出CURL:用于强化学习的对比无监督表示法。CURL使用表示学习从原始像素中提取高级特征，并在提取的特征上执行off-policy控制。在DeepMind控制套件和Atari游戏中，CURL在复杂任务中的表现优于之前基于像素的方法，无论是基于模型的还是无模型的，在100K环境和交互步骤的基准测试中，分别获得1.9倍和1.6倍的性能提升。在DeepMind控制套件中，CURL是第一个与使用基于状态特征的方法的采样效率和性能接近的基于图像的算法。

1. 主要方法

1.1 总体网络架构

从缓冲区采样一批转换后的观察数据，观察数据被扩充两次以形成query观察值和key观察值，然后分别用query编码器和key编码器对它们进行编码。query被传递给RL算法，而query-key对被传递给表示学习目标。在梯度更新步骤中，只有query编码器被更新，key编码器权重是query权重的moving average (EMA)。如下图所示：

1.2 总体思路

Contrastive Unsupervised Representations for Reinforcement Learning (CURL) 结合实例表示学习和强化学习，CURL通过确保嵌入的数据扩充版本和观察的使用对比损失匹配来训练一个可视化表示编码器，所有这些都是从为RL更新抽样的小样本中批量采样的。RL策略和值函数建立在查询编码器之上，该编码器与表示学习和强化学习目标共同训练。CURL是一个通用框架，可以插入任何依赖于从高维图像学习的RL算法中。如下图所示：

CURL的一个关键组件是使用对比无监督学习来学习高维数据的丰富表示。通俗来讲就是在正常强化学习的信号基础上，同时加上表示学习的信号。对于一个observation（一般是四帧图像输入），对其做数据增广。同一个样本上做数据增广得到的样本作为正样本，不同数据上做数据增广得到的样本作为负样本。然后使用相应的contrastive loss作为损失函数。即下公式：

其中,q表示anchor，表示目标，表示正样本，表示负样本。

3. 实验

在DMControl （DeepMind Control Suite）各个任务分别的性能。

在Atari上的结果。

参考链接：

矿大人工智能社团

https://mp.weixin.qq.com/s/Na0mNHJb3wQaHb6Kj1iZfg

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“CURL” 可以获取《ICML2020-用于强化学习的对比无监督表示嵌入》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

1

相关内容

对比无监督表示

对比无监督表示

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ICML2020】最小化验证损失代理来搜索最佳神经网络结构

专知会员服务

24+阅读 · 2020年7月13日

【ICML2020-浙江大学】对抗性互信息的文本生成

【ICML2020-浙江大学】对抗性互信息的文本生成

专知会员服务

44+阅读 · 2020年7月4日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知会员服务

77+阅读 · 2020年6月28日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【ICML2020-哈佛】深度语言表示中可分流形

【ICML2020-哈佛】深度语言表示中可分流形

专知会员服务

13+阅读 · 2020年6月2日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知会员服务

61+阅读 · 2020年3月14日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

论文荐读：理解图表示学习中的负采样

论文荐读：理解图表示学习中的负采样

学术头条

29+阅读 · 2020年5月29日

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

开放知识图谱

17+阅读 · 2019年12月31日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

DeepMind论文：深度压缩感知，新框架提升GAN性能

DeepMind论文：深度压缩感知，新框架提升GAN性能

极市平台

4+阅读 · 2019年5月23日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

学界 | DeepMind提出对比预测编码，通过预测未来学习高级表征

学界 | DeepMind提出对比预测编码，通过预测未来学习高级表征

机器之心

6+阅读 · 2018年7月28日

【深度】Google提出「自监督」表征学习方法，让智能体通过「观察」认识世界

【深度】Google提出「自监督」表征学习方法，让智能体通过「观察」认识世界

GAN生成式对抗网络

7+阅读 · 2018年5月26日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Accelerated Methods for Deep Reinforcement Learning

Accelerated Methods for Deep Reinforcement Learning

Arxiv

6+阅读 · 2019年1月10日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Unsupervised Multilingual Word Embeddings

Arxiv

4+阅读 · 2018年9月6日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Mean Field Multi-Agent Reinforcement Learning

Arxiv

5+阅读 · 2018年6月12日

Efficient end-to-end learning for quantizable representations

Arxiv

6+阅读 · 2018年5月15日

Inductive Representation Learning on Large Graphs

Arxiv

3+阅读 · 2018年4月10日

VIP会员

相关主题

对比无监督表示

相关VIP内容

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ICML2020】最小化验证损失代理来搜索最佳神经网络结构

专知会员服务

24+阅读 · 2020年7月13日

【ICML2020-浙江大学】对抗性互信息的文本生成

【ICML2020-浙江大学】对抗性互信息的文本生成

专知会员服务

44+阅读 · 2020年7月4日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知会员服务

77+阅读 · 2020年6月28日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【ICML2020-哈佛】深度语言表示中可分流形

【ICML2020-哈佛】深度语言表示中可分流形

专知会员服务

13+阅读 · 2020年6月2日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知会员服务

61+阅读 · 2020年3月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

白宫发布《赢得AI竞赛：美国人工智能行动计划》最新28页

地下战：地下空间的战略博弈

《美地下作战条令手册》228页

相关资讯

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

论文荐读：理解图表示学习中的负采样

论文荐读：理解图表示学习中的负采样

学术头条

29+阅读 · 2020年5月29日

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

开放知识图谱

17+阅读 · 2019年12月31日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

DeepMind论文：深度压缩感知，新框架提升GAN性能

DeepMind论文：深度压缩感知，新框架提升GAN性能

极市平台

4+阅读 · 2019年5月23日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

学界 | DeepMind提出对比预测编码，通过预测未来学习高级表征

学界 | DeepMind提出对比预测编码，通过预测未来学习高级表征

机器之心

6+阅读 · 2018年7月28日

【深度】Google提出「自监督」表征学习方法，让智能体通过「观察」认识世界

【深度】Google提出「自监督」表征学习方法，让智能体通过「观察」认识世界

GAN生成式对抗网络

7+阅读 · 2018年5月26日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Accelerated Methods for Deep Reinforcement Learning

Accelerated Methods for Deep Reinforcement Learning

Arxiv

6+阅读 · 2019年1月10日

Logically-Constrained Reinforcement Learning

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Unsupervised Multilingual Word Embeddings

Arxiv

4+阅读 · 2018年9月6日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

Mean Field Multi-Agent Reinforcement Learning

Arxiv

5+阅读 · 2018年6月12日

Efficient end-to-end learning for quantizable representations

Arxiv

6+阅读 · 2018年5月15日

Inductive Representation Learning on Large Graphs

Arxiv

3+阅读 · 2018年4月10日

大家都在搜

智库最新报告

久别重逢话双塔

软件无线电

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员