使用随机编码器进行有效探索的星体最大化状态( Entropy 最大化) (State Entropy Maximization with Random Encoders for Efficient Exploration) - 专知论文

会员服务 ·

0

估计/估计量 · 学成 · HTTPS · 极大 · 回合 ·

2021 年 6 月 10 日

State Entropy Maximization with Random Encoders for Efficient Exploration

翻译：使用随机编码器进行有效探索的星体最大化状态( Entropy 最大化)

Younggyo Seo,Lili Chen,Jinwoo Shin,Honglak Lee,Pieter Abbeel,Kimin Lee

from arxiv, ICML 2021. First two authors contributed equally. Website: https://sites.google.com/view/re3-rl Code: https://github.com/younggyoseo/RE3

Recent exploration methods have proven to be a recipe for improving sample-efficiency in deep reinforcement learning (RL). However, efficient exploration in high-dimensional observation spaces still remains a challenge. This paper presents Random Encoders for Efficient Exploration (RE3), an exploration method that utilizes state entropy as an intrinsic reward. In order to estimate state entropy in environments with high-dimensional observations, we utilize a k-nearest neighbor entropy estimator in the low-dimensional representation space of a convolutional encoder. In particular, we find that the state entropy can be estimated in a stable and compute-efficient manner by utilizing a randomly initialized encoder, which is fixed throughout training. Our experiments show that RE3 significantly improves the sample-efficiency of both model-free and model-based RL methods on locomotion and navigation tasks from DeepMind Control Suite and MiniGrid benchmarks. We also show that RE3 allows learning diverse behaviors without extrinsic rewards, effectively improving sample-efficiency in downstream tasks. Source code and videos are available at https://sites.google.com/view/re3-rl.

翻译：最近的勘探方法已证明是提高深层强化学习(RL)样本效率的秘诀。然而,在高维观测空间的有效探索仍是一项挑战。本文展示了高效探索的随机编码器(RE3),这是一种利用状态的星温作为内在奖赏的探索方法。为了估算高维观测环境中的状态环球,我们使用了在低维代表空间的相邻光学估计器。特别是,我们发现,通过使用随机初始化的编码器(RE3),可以以稳定、计算有效的方式估计该邦的酶。我们的实验显示,RE3大大提高了深海控制套和迷你Grid基准的无模型和基于模型的遥控和导航任务的样本效率。我们还显示,RE3允许在不具有极端奖赏的情况下学习不同的行为,有效地提高下游任务的样本效率。源代码和视频见https://sitesite.gogle.com/view3-rl。

0

相关内容

估计/估计量

估计/估计量

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

专知会员服务

67+阅读 · 2020年7月25日

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

专知会员服务

52+阅读 · 2020年6月1日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

【IJCAI 2019】自适应影响最大化（Adaptive Influence Maximization），Bogdan Cautis，Silviu Maniu，Nikolaos Tziortziotis

【IJCAI 2019】自适应影响最大化（Adaptive Influence Maximization），Bogdan Cautis，Silviu Maniu，Nikolaos Tziortziotis

专知会员服务

7+阅读 · 2019年8月10日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

2018机器学习开源资源盘点

2018机器学习开源资源盘点

专知

6+阅读 · 2019年2月2日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

Learning with Noisy Labels for Robust Point Cloud Segmentation

Arxiv

0+阅读 · 2021年8月5日

Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction

Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction

Arxiv

0+阅读 · 2021年8月5日

Proximally Optimal Predictive Control Algorithm for Path Tracking of Self-Driving Cars

Proximally Optimal Predictive Control Algorithm for Path Tracking of Self-Driving Cars

Arxiv

0+阅读 · 2021年8月5日

Test Score Algorithms for Budgeted Stochastic Utility Maximization

Arxiv

0+阅读 · 2021年8月5日

Exploration in Approximate Hyper-State Space for Meta Reinforcement Learning

Exploration in Approximate Hyper-State Space for Meta Reinforcement Learning

Arxiv

9+阅读 · 2021年2月23日

Bipartite Graph Embedding via Mutual Information Maximization

Bipartite Graph Embedding via Mutual Information Maximization

Arxiv

9+阅读 · 2020年12月10日

Object-centric Forward Modeling for Model Predictive Control

Object-centric Forward Modeling for Model Predictive Control

Arxiv

5+阅读 · 2019年10月8日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Improving GAN Training via Binarized Representation Entropy (BRE) Regularization

Arxiv

4+阅读 · 2018年5月9日

Parameter Space Noise for Exploration

Arxiv

3+阅读 · 2018年1月31日

VIP会员

文章信息

相关主题

估计/估计量

相关VIP内容

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

专知会员服务

67+阅读 · 2020年7月25日

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

专知会员服务

52+阅读 · 2020年6月1日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

【IJCAI 2019】自适应影响最大化（Adaptive Influence Maximization），Bogdan Cautis，Silviu Maniu，Nikolaos Tziortziotis

【IJCAI 2019】自适应影响最大化（Adaptive Influence Maximization），Bogdan Cautis，Silviu Maniu，Nikolaos Tziortziotis

专知会员服务

7+阅读 · 2019年8月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

2018机器学习开源资源盘点

2018机器学习开源资源盘点

专知

6+阅读 · 2019年2月2日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

相关论文

Learning with Noisy Labels for Robust Point Cloud Segmentation

Arxiv

0+阅读 · 2021年8月5日

Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction

Transformer-Based Attention Networks for Continuous Pixel-Wise Prediction

Arxiv

0+阅读 · 2021年8月5日

Proximally Optimal Predictive Control Algorithm for Path Tracking of Self-Driving Cars

Proximally Optimal Predictive Control Algorithm for Path Tracking of Self-Driving Cars

Arxiv

0+阅读 · 2021年8月5日

Test Score Algorithms for Budgeted Stochastic Utility Maximization

Arxiv

0+阅读 · 2021年8月5日

Exploration in Approximate Hyper-State Space for Meta Reinforcement Learning

Exploration in Approximate Hyper-State Space for Meta Reinforcement Learning

Arxiv

9+阅读 · 2021年2月23日

Bipartite Graph Embedding via Mutual Information Maximization

Bipartite Graph Embedding via Mutual Information Maximization

Arxiv

9+阅读 · 2020年12月10日

Object-centric Forward Modeling for Model Predictive Control

Object-centric Forward Modeling for Model Predictive Control

Arxiv

5+阅读 · 2019年10月8日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Improving GAN Training via Binarized Representation Entropy (BRE) Regularization

Arxiv

4+阅读 · 2018年5月9日

Parameter Space Noise for Exploration

Arxiv

3+阅读 · 2018年1月31日

微信扫码咨询专知VIP会员