探讨国家代表制学习 (Exploratory State Representation Learning) - 专知论文

会员服务 ·

0

学成 · 表示学习 · MoDELS · 回合 · Continuity ·

2022 年 2 月 15 日

Exploratory State Representation Learning

翻译：探讨国家代表制学习

Astrid Merckling,Nicolas Perrin-Gilbert,Alex Coninx,Stéphane Doncieux

Not having access to compact and meaningful representations is known to significantly increase the complexity of reinforcement learning (RL). For this reason, it can be useful to perform state representation learning (SRL) before tackling RL tasks. However, obtaining a good state representation can only be done if a large diversity of transitions is observed, which can require a difficult exploration, especially if the environment is initially reward-free. To solve the problems of exploration and SRL in parallel, we propose a new approach called XSRL (eXploratory State Representation Learning). On one hand, it jointly learns compact state representations and a state transition estimator which is used to remove unexploitable information from the representations. On the other hand, it continuously trains an inverse model, and adds to the prediction error of this model a $k$-step learning progress bonus to form the maximization objective of a discovery policy. This results in a policy that seeks complex transitions from which the trained models can effectively learn. Our experimental results show that the approach leads to efficient exploration in challenging environments with image observations, and to state representations that significantly accelerate learning in RL tasks.

翻译：众所周知,没有契约和有意义的表述方式会大大增加强化学习的复杂性(RL),因此,在开展强化学习(RL)之前,进行国家代表性学习(SRL)是有用的。然而,只有观察到大量不同的过渡,特别是如果环境最初是免费的,可能需要进行困难的探索,才能获得良好的国家代表性。为了同时解决勘探和SRL问题,我们建议采用名为XSRL(国家代表性学习)的新方法。一方面,它联合学习国家代表性和州过渡估测器,用来从代表处删除无法利用的信息。另一方面,它不断培养反向模式,并在这一模型的预测错误中增加一笔美元分步骤的学习进度奖金,以形成发现政策的最大化目标。这导致一项政策寻求复杂的转变,使经过培训的模型能够有效地学习。我们的实验结果表明,这一方法导致在富有挑战性的环境中以图像观察方式进行高效的探索,并导致在显著加快RL任务的学习。

0

相关内容

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

专知会员服务

133+阅读 · 2021年6月16日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

87+阅读 · 2021年1月12日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

61+阅读 · 2020年8月22日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

164+阅读 · 2020年3月18日

MIT-深度学习Deep Learning State of the Art in 2020，87页ppt

MIT-深度学习Deep Learning State of the Art in 2020，87页ppt

专知会员服务

61+阅读 · 2020年2月17日

【新书：机器学习简介】《A Concise Introduction to Machine Learning》by A.C. Faul (CRC 2019)

【新书：机器学习简介】《A Concise Introduction to Machine Learning》by A.C. Faul (CRC 2019)

专知会员服务

75+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

178+阅读 · 2020年2月1日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

59+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

152+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

174+阅读 · 2019年10月11日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

19+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

26+阅读 · 2019年5月22日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

42+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

17+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

复杂战场环境下的几个目标跟踪新问题研究

国家自然科学基金

51+阅读 · 2014年12月31日

复杂散射机制场景的SAR图像认知方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

分层视觉模型及表观复杂变化的视觉目标跟踪方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于上下文协作、多级观测和数据关联的复杂场景多目标跟踪

国家自然科学基金

0+阅读 · 2013年12月31日

动态复杂生产环境下的大规模多级生产经济批量综合问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

复杂广域场景中无重叠摄像机间行人关联与语义分析研究

国家自然科学基金

0+阅读 · 2012年12月31日

滇西老厂富银红土型锰矿次生富集机制及40Ar/39Ar年龄

国家自然科学基金

0+阅读 · 2012年12月31日

复杂疾病中的若干统计方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

复杂场景光流场计算的鲁棒性和病态问题分析

国家自然科学基金

0+阅读 · 2009年12月31日

Zero-Shot Program Representation Learning

Arxiv

0+阅读 · 2022年4月18日

The Role of Pretrained Representations for the OOD Generalization of Reinforcement Learning Agents

Arxiv

0+阅读 · 2022年4月16日

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Arxiv

11+阅读 · 2021年12月16日

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Arxiv

12+阅读 · 2021年2月7日

Learning from Very Few Samples: A Survey

Arxiv

126+阅读 · 2020年9月6日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Financial Time Series Representation Learning

Financial Time Series Representation Learning

Arxiv

10+阅读 · 2020年3月27日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

362+阅读 · 2019年4月10日

Learning Heuristics over Large Graphs via Deep Reinforcement Learning

Arxiv

12+阅读 · 2019年3月8日

Learning Embedding Adaptation for Few-Shot Learning

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

16+阅读 · 2018年12月10日

VIP会员

文章信息

相关主题

相关VIP内容

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

专知会员服务

133+阅读 · 2021年6月16日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

87+阅读 · 2021年1月12日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

61+阅读 · 2020年8月22日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

164+阅读 · 2020年3月18日

MIT-深度学习Deep Learning State of the Art in 2020，87页ppt

MIT-深度学习Deep Learning State of the Art in 2020，87页ppt

专知会员服务

61+阅读 · 2020年2月17日

【新书：机器学习简介】《A Concise Introduction to Machine Learning》by A.C. Faul (CRC 2019)

【新书：机器学习简介】《A Concise Introduction to Machine Learning》by A.C. Faul (CRC 2019)

专知会员服务

75+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

178+阅读 · 2020年2月1日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

59+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

152+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

174+阅读 · 2019年10月11日

热门VIP内容

相关资讯

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

19+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

26+阅读 · 2019年5月22日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

42+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

17+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Zero-Shot Program Representation Learning

Arxiv

0+阅读 · 2022年4月18日

The Role of Pretrained Representations for the OOD Generalization of Reinforcement Learning Agents

Arxiv

0+阅读 · 2022年4月16日

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Arxiv

11+阅读 · 2021年12月16日

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Arxiv

12+阅读 · 2021年2月7日

Learning from Very Few Samples: A Survey

Arxiv

126+阅读 · 2020年9月6日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Financial Time Series Representation Learning

Financial Time Series Representation Learning

Arxiv

10+阅读 · 2020年3月27日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

362+阅读 · 2019年4月10日

Learning Heuristics over Large Graphs via Deep Reinforcement Learning

Arxiv

12+阅读 · 2019年3月8日

Learning Embedding Adaptation for Few-Shot Learning

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

16+阅读 · 2018年12月10日

相关基金

复杂战场环境下的几个目标跟踪新问题研究

国家自然科学基金

51+阅读 · 2014年12月31日

复杂散射机制场景的SAR图像认知方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

分层视觉模型及表观复杂变化的视觉目标跟踪方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于上下文协作、多级观测和数据关联的复杂场景多目标跟踪

国家自然科学基金

0+阅读 · 2013年12月31日

动态复杂生产环境下的大规模多级生产经济批量综合问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

复杂广域场景中无重叠摄像机间行人关联与语义分析研究

国家自然科学基金

0+阅读 · 2012年12月31日

滇西老厂富银红土型锰矿次生富集机制及40Ar/39Ar年龄

国家自然科学基金

0+阅读 · 2012年12月31日

复杂疾病中的若干统计方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

复杂场景光流场计算的鲁棒性和病态问题分析

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员