题目: CURL: Contrastive Unsupervised Representations for Reinforcement Learning
摘要:
我们提出了CURL:用于强化学习的对比无监督表示法。CURL使用对比学习从原始像素中提取高级特征,并在提取的特征之上执行off-policy控制。在DeepMind控制套件和Atari游戏中,在100K交互步骤基准测试中,CURL在复杂任务上的表现优于先前基于模型和非模型的基于像素的方法,分别提高了2.8倍和1.6倍的性能。在DeepMind控制套件中,CURL是第一个基于图像的算法,它的效率和性能几乎与使用基于状态的特性的方法不相上下。