通过利用先前学习的任务来加速复杂任务的学习过程一直是强化学习中最具挑战性的问题之一,尤其是当源任务和目标任务之间的相似性较低时。本文针对深度强化学习中的知识迁移问题,提出了表示与实例迁移(REPAINT)算法。REPAINT 不仅在策略学习中转移了预先训练的教师策略的表示,而且还使用基于优势的经验选择方法来转移在非策略学习中按照教师策略收集的有用样本。本文在几个基准任务上的实验结果表明,在任务相似的一般情况下,REPAINT 显著减少了总训练时间。尤其是当源任务与目标任务不同或子任务不同时,REPAINT 在训练时间减少和返回分数的渐近表现方面都优于其他基线。
论文链接: https://www.zhuanzhi.ai/paper/0439c2852ae341fff43de69e5c7062ff