We propose VRL3, a powerful data-driven framework with a simple design for solving challenging visual deep reinforcement learning (DRL) tasks. We analyze a number of major obstacles in taking a data-driven approach, and present a suite of design principles, novel findings, and critical insights about data-driven visual DRL. Our framework has three stages: in stage 1, we leverage non-RL datasets (e.g. ImageNet) to learn task-agnostic visual representations; in stage 2, we use offline RL data (e.g. a limited number of expert demonstrations) to convert the task-agnostic representations into more powerful task-specific representations; in stage 3, we fine-tune the agent with online RL. On a set of challenging hand manipulation tasks with sparse reward and realistic visual inputs, compared to the previous SOTA, VRL3 achieves an average of 780% better sample efficiency. And on the hardest task, VRL3 is 1220% more sample efficient (2440% when using a wider encoder) and solves the task with only 10% of the computation. These significant results clearly demonstrate the great potential of data-driven deep reinforcement learning.
翻译:我们建议VRL3, 一个强大的数据驱动框架, 简单设计解决具有挑战性的视觉深层强化学习( DRL)任务。 我们分析在采取数据驱动方法时遇到的一些重大障碍, 并展示一系列设计原则、新发现和关于数据驱动视觉DRL的批判性洞察力。 我们的框架有三个阶段: 在第一阶段, 我们利用非RL数据集( 如图像Net) 学习任务不可知的视觉表现; 在第二阶段, 我们使用离线RL数据( 例如有限数量的专家演示) 将任务不可知性表现转换为更强大的特定任务表现; 在第三阶段, 我们用在线RL微调该代理。 在一系列具有挑战性的手动操作任务上, 与以前的SOTA相比, VRL3 取得了平均780%的样本效率。 在最艰巨的任务中, VRL3 的样本效率提高了1220% ( 当使用一个更广泛的编码时为240%), 并且只用10%的计算方法解决任务。 这些重要的结果清楚地表明了数据驱动深度学习的巨大潜力。