MSU最新《深度强化学习中的迁移学习》2020综述论文，22页pdf

2020 年 9 月 20 日 专知

摘要

本文综述了迁移学习在强化学习问题设置中的应用。 RL已经成为序列决策问题的关键的解决方案。随着RL在各个领域的快速发展。包括机器人技术和游戏，迁移学习是通过利用和迁移外部专业知识来促进学习过程来帮助RL的一项重要技术。在这篇综述中，我们回顾了在RL领域中迁移学习的中心问题，提供了一个最先进技术的系统分类。我们分析他们的目标，方法，应用，以及在RL框架下这些迁移学习技术将是可接近的。本文从RL的角度探讨了迁移学习与其他相关话题的关系，并探讨了RL迁移学习的潜在挑战和未来发展方向。

关键词 ：迁移学习，强化学习，综述，机器学习

介绍

强化学习(RL)被认为是解决连续决策任务的一种有效方法，在这种方法中，学习主体通过与环境相互作用，通过[1]来提高其性能。源于控制论并在计算机科学领域蓬勃发展的RL已被广泛应用于学术界和工业界，以解决以前难以解决的任务。此外，随着深度学习的快速发展，应用深度学习服务于学习任务的集成框架在近年来得到了广泛的研究和发展。 DL和RL的组合结构称为深度强化学习[2](Deep Reinforcement Learning, DRL)。

DRL在机器人控制[3]、[4]、玩[5]游戏等领域取得了巨大的成功。在医疗保健系统[6]、电网[7]、智能交通系统[8]、[9]等领域也具有广阔的应用前景。

在这些快速发展的同时，DRL也面临着挑战。在许多强化学习应用中，环境模型通常是未知的，只有收集到足够的交互经验，agent才能利用其对环境的知识来改进其性能。由于环境反馈的部分可观察性、稀疏性或延迟性以及高维观察和/或行动空间等问题，学习主体在没有利用任何先验知识的情况下寻找好的策略是非常耗时的。因此，迁移学习作为一种利用外部专业知识来加速学习过程的技术，在强化学习中成为一个重要的课题。

在监督学习(SL)领域[10]中，TL得到了广泛的研究。与SL场景相比，由于MDP环境中涉及的组件更多，RL中的TL(尤其是DRL中的TL)通常更复杂。MDP的组件(知识来自何处)可能与知识转移到何处不同。此外，专家知识也可以采取不同的形式，以不同的方式转移，特别是在深度神经网络的帮助下。随着DRL的快速发展，以前总结用于RL的TL方法的努力没有包括DRL的最新发展。注意到所有这些不同的角度和可能性，我们全面总结了在深度强化学习(TL in DRL)领域迁移学习的最新进展。我们将把它们分成不同的子主题，回顾每个主题的理论和应用，并找出它们之间的联系。

本综述的其余部分组织如下:在第2节中，我们介绍了强化学习的背景，关键的DRL算法，并带来了这篇综述中使用的重要术语。我们还简要介绍了与TL不同但又紧密相关的相关研究领域(第2.3节)。

在第3节中，我们采用多种视角来评价TL方法，提供了对这些方法进行分类的不同方法(第3.1节)，讨论了迁移源和目标之间的潜在差异(第3.2节)，并总结了评价TL有效性的常用指标(第3.3节)。

第4节详细说明了DRL领域中最新的TL方法。特别是，所讨论的内容主要是按照迁移知识的形式组织的，如成型的奖励(4.1节)、先前的演示(4.2节)、专家策略(4.3节)，或者按照转移发生的方式组织的，如任务间映射(4.4节)、学习可转移表示(4.5节和4.6节)等。我们在第5节讨论了TL在DRL中的应用，并在第6节提供了一些值得研究的未来展望。

https://www.zhuanzhi.ai/paper/c191868037791b353ce96764d282debe

强化学习算法

蒙特卡罗方法，蒙特卡罗方法是一种模型自由的方法，这意味着目标策略是通过与环境相互作用的样本进行优化，而不需要了解MDP转换动力学。蒙特卡罗方法利用事件的样本，根据从该状态开始的事件估计每个状态的值。如果行为策略收集的片段样本与我们想要学习的目标策略不同，那么蒙特卡罗方法可以是非策略的。当通过目标策略收集样本时，它们也可以是on-policy。为了将行为策略的预期回报转换为目标策略[11]和[12]，重要性抽样通常应用于非策略方法。
时间差分学习，简称TD-learning，是蒙特卡罗方法解决预测问题的一种替代方法。TD-learning背后的关键思想是通过bootstrapping来学习状态质量函数，这意味着它根据另一种估计来更新对该函数的估计。也可以将其推广到通过GPI方案来解决控制问题，从而使价值函数和策略都得到改进。TD-learning是使用最广泛的RL框架之一，因为它的简单性和普遍适用性。著名的基于策略的td学习算法包括SARSA[13]、Expected SARSA[14]、演员评论家[15]和它的变体A3C[16]。最流行的离策略td学习方法是Q-learning[17]及其由深度神经网络构建的变体，如DQN [18]， Double-DQN[18]等。
策略梯度，与基于行动价值的方法相比，策略梯度是一种不同的机制。它直接学习一个参数化策略，并更新其参数来寻找最优策略。策略梯度法的一个经典例子是增强[21]。近年来，随着深度学习的快速发展，出现了各种不同的策略梯度方法，如信任区域策略优化(TRPO) [22]， Actor-Critic，以及近端策略优化(PPO)[23]。策略梯度方法的一个优点是更适合具有连续状态和动作空间的任务。实例算法有确定性策略梯度(DPG)[24]及其扩展，深确定性策略梯度(DDPG)[25]。

评估TL在DRL的方法

通过回答以下几个关键问题，我们对不同的迁移学习方法进行了分类：

迁移了哪些知识？:从高层次来看，知识可以是任务(策略)的解决方案，从低层次来看，专家知识也可以采取不同的形式。例如一组专家经验、专家策略的操作概率分布，甚至估计源/目标MDP中状态和操作对质量的潜在函数。这些知识形式和粒度上的差异影响了不同TL方法的内部逻辑。转移的知识的质量，例如，它是来自4 oracle策略还是次优的人工演示，也影响我们设计TL方法的方式。
在哪发生迁移？:对于任何RL任务，MDP(或环境)都可以定义为M = (S,A,T,γ,T)。源MDP的M_s是先验知识的来源，目标MDP的M_t是知识转移的目标。有些TL方法适用于M_s和M_t相等的情况，而另一些则用于在不同的mpd之间迁移知识。M_s和M_t之间的差别因任务而异。例如，在一些观察为RGB像素的游戏任务中，M_s和M_t可以共享相同的A，但在观察空间上有所不同。对于基于潜力的奖励塑造等方法，这两个MDP的差异仅在于奖励分配:Rs ！= Rt。这些相似度差距决定了迁移学习的难度，以及有多少比例的知识可以从M_s迁移到M_t。
如何在源MPD和目标MPD之间迁移知识？:这个问题可以进一步阐述为:M_s与M_t的相似性假设是什么?从M_s到M_t的映射函数是预定义的还是自动生成的?该算法的哪个部分，例如策略集群，价值函数V，甚至转移动力学T(针对基于模型的RL任务)，被转移的知识所改进?这种映射是在线下学习还是在线学习[41]。
迁移学习方法的目标是什么？:为了回答这个问题，我们首先列出了可用于衡量TL任务效率的几种方法，并回顾了不同的TL方法是如何旨在改进某些指标设置的。度量标准从初始/收敛/阶段性性能到用于达到特定阈值的时间不等。甚至用来定义累积奖励的目标函数也可能采取不同的形式。例如，将策略熵最大化作为要实现的子目标包括在本工作的目标函数中:[42]。
TL方法的适用性如何？:TL方法是策略不可知的，还是只适用于某些算法集，例如时间差异(TD)方法?这个问题又与迁移知识的形式和两个MDP之间的相似性有关。
目标MDP的可访问性？:与源任务的交互通常更便宜也更容易获得。但是，在一些情况下，Agent不能直接访问目标MDP，或者由于目标环境中的高采样成本，Agent只能与它进行非常有限的交互。这个场景的示例包括在模拟和真实环境中训练自动驾驶Agent，或者使用模拟图像输入训练机器人拾取物品，而不是在真实环境中学习。根据迁移学习所需的样本数量，我们还可以从以下角度对本次调查中提到的TL方法进行分类:(1)零样本迁移:学习因子直接适用于目标MDP，不需要任何样本;(2)小样本迁移:从目标MDP中只需要少量样本;(3)高效样本传输:大多数其他算法都属于这一类。与目标MDP中从零开始的训练相比，TL方法使目标agent具有更好的初始性能，并且(或)在转移知识的引导下收敛速度更快。

未来发展方向

模型可迁移性:TL的一个关键问题是，解决一项任务的知识是否或在多大程度上能够帮助解决另一项任务?回答这个问题有助于实现自动TL的许多阶段，包括源任务的选择、映射函数的设计、解纠缠表示、避免负迁移等。

我们提出了一个定义两个任务可转换性的理论框架，如图3所示:对于两个任务M_i和M_j，如果存在求解M_i的知识，则求解M_j的知识是可转移的：

评估可转移性:到目前为止，人们提出了不同的评估指标，从不同但互补的角度来评估TL方法，尽管没有单一的指标可以总结TL方法的有效性。设计一套通用的、新颖的度量，有利于DRL领域中TL的发展。除了这种流行的基准设置外，OpenAI gym3是专为评估RL方法而设计的一个统一的基准评估TL性能也值得努力。

与框架无关的迁移:大多数当代的TL方法只能适合某些RL框架。具体来说，一些TL方法只适用于为离散动作空间设计的RL算法(如DQfD)，而另一些则适用于连续动作空间。此外，TL方法可能仅限于on-policy / off-policy设置。这些依赖于框架的TL方法的根本原因源于RL本身的无组织开发。我们期望在不久的将来，一个统一的RL社区将反过来加速这个领域中TL开发的标准化。

可解释性:深度学习和端到端系统使网络表示成为黑盒子，使解释和调试模型表示或决策变得困难。因此，在监督学习领域，人们开始努力定义和评估可解释方法[170][172]。可解释性的优点是流形，包括生成解纠缠表示，建立可解释模型，促进人机交互等。与此同时，RL领域的可解释TL方法，特别是具有可解释的表示或策略决策的可解释TL方法，也有利于许多应用领域，包括机器人学习和金融。此外，可解释性还有助于避免诸如自动驾驶或医疗保健决策等任务的灾难性决策。

尽管已经出现了针对RL任务的可解释TL方法的研究[173]、[174]，但在RL领域中并没有可解释TL的定义，也没有一个系统的过程来评估不同TL方法的可解释性。我们相信，在不久的将来，RL可解释TL的标准化将是一个值得更多关注和努力的话题。

专知便捷查看