强化学习中迁移的基础：知识形态的分类

当代人工智能系统展现出迅速增长的能力，伴随着所需资源、庞大的数据集和对计算基础设施的相应投资的增长。虽然早期的成功主要集中在受限环境中，但最近在基础研究和应用方面的进步渴望创造出越来越通用的系统。这种不断演变的景观呈现出一个双重全景，即在提炼知识的泛化和迁移方面的机遇和挑战 - 从现有资源中提取并适应作为解决新问题的综合基础。在强化学习（RL）领域内，知识的表现通过各种方式体现，包括动力学和奖励模型、价值函数、策略以及原始数据。这个分类系统地针对这些方式，并基于它们固有的特性及与不同目标和迁移机制的一致性来框定讨论。在可能的情况下，我们旨在提供粗略的指导，勾画出满足限制环境交互、最大化计算效率和在不同变化轴上增强泛化等要求的方法。最后，我们分析了特定迁移形式盛行或稀缺的原因，推动这些前沿的内在潜力，并强调了从设计迁移到学习迁移的重要性。“‘无中生有’ - 无中不能生有。虽然这个原则在哲学中引发了持续的讨论 [Chapman, 2015]，但在机器学习中，我们必须采取务实的态度。我们的模型的性能和准确性不会凭空出现，而是依赖于不同的信息来源来有效地建模系统。这些信息来源通常要么是劳动密集型的手工设计，要么是大量的数据。考虑到这两种努力所关联的非琐碎成本，重用或迁移先前获得的相关信息的能力对于高效和有效的学习具有至关重要的意义。在人类和其他动物的自然学习中，先前获得的知识的重用和迁移是普遍的 [Spelke et al., 1992]。大自然给我们提供了许多快速适应环境、任务、对象变化，甚至是由生长或伤害等因素引起的身体变化的例子 [Wolpert et al., 2001]。这个迁移过程不仅限于个体的一生，而且延伸到进化尺度，由包括遗传物质传播在内的多种机制促进 [Fox et al., 1996]。事实上，进化本身就催生了多种信息迁移和重用的机制 [Michod, 2000]，凸显了迁移对生物体固有的相关性。对于人工学习系统，最近在监督学习 [He et al., 2019, Huh et al., 2016] 或自监督学习 [Brown et al., 2020, Devlin et al., 2018, Grill et al., 2020] 中的成就源于大型预训练模型的迁移，这些模型通常被称为基础模型（FMs） [Bommasani et al., 2021]，它们可以适应只需要相对较少额外数据的新任务。在强化学习中，代理主动塑造其自己的训练数据，迁移的影响倍增。它影响优化过程的两个阶段：初始模型，可以使其更接近最优；以及构建所有后续优化基础的数据分布。这两条路径的融合放大了有效迁移的重要性，特别是在像强化学习这样的主动学习环境中，与数据集保持不变的被动场景相对。强化学习（RL）提供了一个形式主义和框架，描述了通过交互产生复杂的目标导向行为，提供了一种与传统的基于固定数据集的监督学习相比更接近自然学习的范式 [Sutton and Barto, 2018]。除了这种概念上的一致性之外，与监督学习相比，RL在实践上的优点在于它对数据的广泛访问。不受我们组装适当数据集能力的限制，系统自己决定哪些数据最相关。改善这个数据收集过程并定义适当的优化标准包括许多挑战，代表着一个持续研究的途径，其潜力可能在长期内超越人工策划的数据集。在自然界中，这个获取信息的过程是持续的 - 一切都是建立在先前获得的知识之上，创造出一个不断演化的能力集。相反，在目前探索RL的许多场景中，知识并未在学习问题之间传递；每个解决方案都是重新学习的，是孤立和从零开始的。迁移学习有潜力打破这种模式，并提供一条轨迹，即一旦获得的知识被重新利用和适应。它不仅有望提高结果，而且还加快了实验迭代，从而加速研究周期。知识可以更有效地泛化或适应的基本见解超越了机器学习 [Taylor and Stone, 2009]，在心理学 [Skinner, 1953, Woodworth and Thorndike, 1901] 和生物学 [Michod, 2000, Wolpert et al., 2001] 等多个领域都找到了应用。”“就像自然系统所采用的多种机制用于知识的存储和适应一样，我们当前的强化学习代理展示了知识的一系列表现形式，包括策略、价值函数、动力学模型和奖励模型——所有这些都源于数据，作为知识的原始来源。代理迁移或泛化的能力与知识的封装和存储方式密不可分。这个分类结构围绕这些知识形式（策略、价值函数、动力学模型、奖励模型和数据）、它们的属性和迁移机制展开讨论。利用这些考虑，我们对RL中的各种迁移形式进行了分类和分析。为了直观理解，考虑任务变化对不同模式的影响，动态保持一致，而最佳策略则发生变化。同样地，学习和生成行为之间的计算需求在两种模式之间也有很大不同。虽然该领域内的主要关注点集中在行为的显式表现的迁移上，如策略或状态-行为价值函数 [Kirk et al., 2021]，但强调其余模式如何促进迁移是非常重要的，这在近期深度学习技术取得成功之前是更普遍的观点 [Taylor and Stone, 2009]。这个分类从顺序的角度关注迁移，从现有知识源（无论是来自一个或多个RL实验还是固定数据集）开始，以提高RL代理在随后实验中的能力。我们可以将这个过程分为两个阶段：提取和准备知识模式的初始准备阶段，然后是应用阶段，在这个阶段我们部署并可能适应目标领域中准备好的模式。在应用阶段，我们将考虑零样本泛化 [Kirk et al., 2021]（直接应用训练好的模型）以及需要进一步适应或优化的更复杂的过程。虽然我们将讨论框架在顺序迁移方面，但我们进一步考虑了在其他设置（例如多任务和元学习）中开发的方法，但可以部署用于迁移学习。我们在适当的地方突出这些联系，提供了超越顺序设置应用的迁移方法论的全面探索。迁移在RL研究的长期发展中扮演着几个角色。实际上，它作为解决更困难任务的催化剂。它与自然学习建立了强有力的概念联系，最终构成了创建终身学习系统的基本步骤。向前看，有必要反思人工智能研究中以往的‘苦涩教训’ [Sutton, 2019]。从历史上看，主要关注点一直在于从较小的领域或任务集中迁移 [Taylor and Stone, 2009, Zhu et al., 2020c]，其中原始来源和迁移目标之间的关系细节扮演着不成比例的重要角色。迁移方法经常被定制以优化特定关系的性能，对灵活性构成限制。为了实现更加灵活的迁移，减少手工设计的量并转向学习如何从巨大的源训练分布中适应至关重要，类似于监督学习和大型预训练模型领域的普遍做法。从顺序决策制定和RL的角度来看这个背景，使我们能够审视基础模型与知识模式的关系，如动力学或奖励模型、价值函数或策略。我们的目标是提供现有研究的全面概述和方法的系统分类，就总体性能、数据效率和适用性等方面的利弊进行评估，特别是在源和目标MDP之间的特定变化。尤其是，计算成本和实施的难易程度对迁移方法的实用性有着重要的影响。尽管量化这些属性存在挑战，但我们承诺参与它们的定性讨论，为明智的设计选择提供有用的见解。这种结构允许我们调查该领域，并将讨论引向尚未开发的研究机会，引导讨论朝着迁移改进的潜力方向。

这个分类从第2节对强化学习环境的讨论开始，深入探讨了不同知识模式在这个背景下的角色和优势。第3节我们继续定义迁移，检查不同的指标，并探索相关领域。第4节从高层次的角度展示了各种模态不可知的迁移方法，这在第5节中扩展到通过特定知识模式的迁移。我们最后在第6节总结，讨论迁移和各种模式之间的相互作用。在这里，我们阐明了研究和机遇的未开发途径以及当前和未来的挑战，当我们对迁移、数据集和模型的雄心呈指数级增长时。虽然我们旨在提供整个领域及相邻领域的广泛覆盖，但这个领域的快速发展本质不可避免地导致了一些相关工作的遗漏。尽管如此，我们相信我们的工作作为一个有价值的指南，为那些努力提高强化学习中泛化和迁移能力的人提供了全面的概述和未来研究方向的有见地的指导。