类似于人脑的神经可塑性,深度神经网络的可塑性使其能够快速适应新数据。这使得可塑性在深度强化学习(RL)代理中尤为重要:一旦可塑性丧失,代理的性能将不可避免地停滞,因为它无法改进其策略以应对数据分布的变化,而这种变化是学习过程中的必然结果。因此,开发高性能且高样本效率的代理取决于其在训练过程中保持可塑性的能力。此外,可塑性的丧失还与深度强化学习中的许多其他问题相关,如训练不稳定性、扩展失败、过度估计偏差和探索不足等。通过本综述,我们旨在为深度强化学习的学术研究者和实践者提供关于可塑性丧失的最新研究概览。首先,我们基于近期的研究提出了一个统一的可塑性丧失定义,将其与文献中的定义进行对比,并讨论了衡量可塑性丧失的指标。接着,我们分类并探讨了可塑性丧失的多种可能原因,随后回顾了目前使用的缓解策略。我们的分类法是该领域现状的首次系统概述。最后,我们讨论了文献中的普遍问题,如对更广泛评估的需求,并为未来研究提出了建议,比如更好地理解代理的神经活动与其行为之间的关系。
关键词:强化学习、可塑性丧失、持续学习、综述、调查
深度强化学习(Deep Reinforcement Learning,RL)近年来取得了诸多成功和突破:它在围棋 [96] 和 Dota [11] 中击败了最强人类选手,发现了新的矩阵乘法算法 [30],赋予语言模型生成类人回复以挑战图灵测试的能力 [13],并在机器人控制方面取得了显著进展 [86]。深度 RL 在处理环境变化以及在复杂的序列决策问题中做出近似最优决策的能力,可能是实现通用智能代理的关键。此外,RL 通过完全基于试错的交互模式进行学习,这种方式模仿了人类学习的过程,使其成为在人工代理中模拟学习的自然范式 [98]。 尽管上述成功显著,深度 RL 依然处于早期阶段,在许多方面还不够可靠和成熟。例如,大多数 RL 算法仍使用经典 DQN 论文 [75] 中相对较小的网络。此外,为了达到高性能,深度 RL 通常需要大量的微调和复杂的稳定技术,而这些技术往往难以正确实施:从经验回放池和目标网络 [75] 到去相关噪声 [102] 和悲观值函数 [33],再到独特的优化器设置 [4, 66] 和定制的超参数计划 [94]。 造成这种情况的原因有很多:首先,深度 RL 本质上是非平稳的,使其成为比监督学习困难得多的问题。此外,它还面临自身的优化问题,例如探索不足、样本相关性和过度估计偏差。近年来,大量研究致力于通过更加复杂的算法解决这些问题,其中许多尝试将表格 RL 中的洞见转移到深度 RL 场景 [18, 88]。 但如果当前深度 RL 中的问题在很大程度上源于将深度神经网络应用于非平稳任务而导致的优化病理呢?[12, 34, 80]。这种观点在最近逐渐受到关注,并归纳为“可塑性损失”这一术语。在深度学习的背景下,可塑性指的是网络快速适应新目标的能力。因此,可塑性损失描述了网络丧失学习能力的状态。研究表明,如果能够解决可塑性损失问题,这也有望缓解许多上述特定于 RL 的挑战。对可塑性损失的研究总体上试图回答以下两个主要问题: * 为什么深度 RL 代理的神经网络会失去学习能力?[26, 66, 68, 80, 82, 97] * 如何保持这种学习能力?[24, 61, 62]
这些问题不仅与 RL 相关,也涉及现代机器学习中的普遍问题:即在需要适应变化的环境中应用机器学习技术的根本挑战。这使得可塑性损失不仅对深度 RL 具有重要意义,还对其他应用深度学习的领域如持续学习 [26] 或在监督学习中的预训练/微调方案 [10, 62] 具有重要影响。
本综述的重点是深度 RL 中的可塑性损失现象。如上所述,可塑性损失也出现在持续学习或监督学习中,尽管本综述涉及这些场景,但并非我们关注的核心。已有的一些持续学习综述也涵盖了可塑性损失和灾难性遗忘 [104],但并未像我们一样专注于可塑性损失,从而在深度方面有所局限。我们对可塑性损失的深入探讨也将本工作与 Khetarpal 等人 [53] 的综述区分开来,后者讨论了多个 RL 特定的子领域,如信用分配和技能学习。在本综述中,我们强调了可塑性损失与深度 RL 中其他问题(如过度估计偏差 [80] 和扩展性不足 [29])的关系。在深度 RL 范畴内,我们集中探讨单代理场景,因为当前对可塑性损失的理解在该场景下最为深入。
本综述首先在第 4 节概述了与可塑性损失相关的 RL 形式和定义。正如我们将看到的,可塑性损失直观上容易定义为网络失去学习能力,但文献中尚无统一的定义。在本节中,我们还回顾了用于测试可塑性损失的不同实验设置,包括合成基准测试和 RL 环境。接着,我们在第 5 节分类并展示了文献中假设的可塑性损失的可能原因,并在第 6 节构建了当前缓解方法的分类。在第 7 节中,我们从可塑性损失的角度讨论深度 RL 研究人员和实践者在使用深度 RL 算法时应考虑的因素。最后,在第 8 节,我们对该领域的现状进行了总结,并展望了未来的发展方向。