How can a reinforcement learning (RL) agent prepare to solve downstream tasks if those tasks are not known a priori? One approach is unsupervised skill discovery, a class of algorithms that learn a set of policies without access to a reward function. Such algorithms bear a close resemblance to representation learning algorithms (e.g., contrastive learning) in supervised learning, in that both are pretraining algorithms that maximize some approximation to a mutual information objective. While prior work has shown that the set of skills learned by such methods can accelerate downstream RL tasks, prior work offers little analysis into whether these skill learning algorithms are optimal, or even what notion of optimality would be appropriate to apply to them. In this work, we show that unsupervised skill discovery algorithms based on mutual information maximization do not learn skills that are optimal for every possible reward function. However, we show that the distribution over skills provides an optimal initialization minimizing regret against adversarially-chosen reward functions, assuming a certain type of adaptation procedure. Our analysis also provides a geometric perspective on these skill learning methods.


翻译:强化学习(RL)代理机构如何做好准备,在那些任务不事先知晓的情况下解决下游任务? 一种方法是未经监督的技能发现,这是一种学习一套政策而没有获得奖励功能的算法。这种算法与监督学习中的代表性学习算法(例如对比学习)非常相似,因为这两种算法都是培训前算法,最大限度地使某些接近于相互的信息目标。先前的工作已经表明,通过这种方法学习的技能组合可以加速下游的RL任务,但先前的工作很少对这些技能学习算法是否最优化或甚至优化概念是否适合适用于这些算法进行分析。在这项工作中,我们显示,基于相互信息最大化的未经监督的技能发现算法并不学习每一种可能的奖励功能的最佳技能。然而,我们表明,技能分配提供了最佳的初始化最小程度的遗憾,以某种适应程序为限。我们的分析还对这些技能学习方法提供了几何角度的视角。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
14+阅读 · 2021年8月5日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
6+阅读 · 2019年11月14日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
9+阅读 · 2018年3月28日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Arxiv
14+阅读 · 2021年8月5日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
6+阅读 · 2019年11月14日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
9+阅读 · 2018年3月28日
Top
微信扫码咨询专知VIP会员