类似于人脑的神经可塑性,深度神经网络的可塑性使其能够快速适应新数据。这使得可塑性在深度强化学习(RL)代理中尤为重要:一旦可塑性丧失,代理的性能将不可避免地停滞,因为它无法改进其策略以应对数据分布的变化,而这种变化是学习过程中的必然结果。因此,开发高性能且高样本效率的代理取决于其在训练过程中保持可塑性的能力。此外,可塑性的丧失还与深度强化学习中的许多其他问题相关,如训练不稳定性、扩展失败、过度估计偏差和探索不足等。通过本综述,我们旨在为深度强化学习的学术研究者和实践者提供关于可塑性丧失的最新研究概览。首先,我们基于近期的研究提出了一个统一的可塑性丧失定义,将其与文献中的定义进行对比,并讨论了衡量可塑性丧失的指标。接着,我们分类并探讨了可塑性丧失的多种可能原因,随后回顾了目前使用的缓解策略。我们的分类法是该领域现状的首次系统概述。最后,我们讨论了文献中的普遍问题,如对更广泛评估的需求,并为未来研究提出了建议,比如更好地理解代理的神经活动与其行为之间的关系。

关键词:强化学习、可塑性丧失、持续学习、综述、调查

1. 引言

深度强化学习(Deep Reinforcement Learning,RL)近年来取得了诸多成功和突破:它在围棋 [96] 和 Dota [11] 中击败了最强人类选手,发现了新的矩阵乘法算法 [30],赋予语言模型生成类人回复以挑战图灵测试的能力 [13],并在机器人控制方面取得了显著进展 [86]。深度 RL 在处理环境变化以及在复杂的序列决策问题中做出近似最优决策的能力,可能是实现通用智能代理的关键。此外,RL 通过完全基于试错的交互模式进行学习,这种方式模仿了人类学习的过程,使其成为在人工代理中模拟学习的自然范式 [98]。 尽管上述成功显著,深度 RL 依然处于早期阶段,在许多方面还不够可靠和成熟。例如,大多数 RL 算法仍使用经典 DQN 论文 [75] 中相对较小的网络。此外,为了达到高性能,深度 RL 通常需要大量的微调和复杂的稳定技术,而这些技术往往难以正确实施:从经验回放池和目标网络 [75] 到去相关噪声 [102] 和悲观值函数 [33],再到独特的优化器设置 [4, 66] 和定制的超参数计划 [94]。 造成这种情况的原因有很多:首先,深度 RL 本质上是非平稳的,使其成为比监督学习困难得多的问题。此外,它还面临自身的优化问题,例如探索不足、样本相关性和过度估计偏差。近年来,大量研究致力于通过更加复杂的算法解决这些问题,其中许多尝试将表格 RL 中的洞见转移到深度 RL 场景 [18, 88]。 但如果当前深度 RL 中的问题在很大程度上源于将深度神经网络应用于非平稳任务而导致的优化病理呢?[12, 34, 80]。这种观点在最近逐渐受到关注,并归纳为“可塑性损失”这一术语。在深度学习的背景下,可塑性指的是网络快速适应新目标的能力。因此,可塑性损失描述了网络丧失学习能力的状态。研究表明,如果能够解决可塑性损失问题,这也有望缓解许多上述特定于 RL 的挑战。对可塑性损失的研究总体上试图回答以下两个主要问题: * 为什么深度 RL 代理的神经网络会失去学习能力?[26, 66, 68, 80, 82, 97] * 如何保持这种学习能力?[24, 61, 62]

这些问题不仅与 RL 相关,也涉及现代机器学习中的普遍问题:即在需要适应变化的环境中应用机器学习技术的根本挑战。这使得可塑性损失不仅对深度 RL 具有重要意义,还对其他应用深度学习的领域如持续学习 [26] 或在监督学习中的预训练/微调方案 [10, 62] 具有重要影响。

**范围

本综述的重点是深度 RL 中的可塑性损失现象。如上所述,可塑性损失也出现在持续学习或监督学习中,尽管本综述涉及这些场景,但并非我们关注的核心。已有的一些持续学习综述也涵盖了可塑性损失和灾难性遗忘 [104],但并未像我们一样专注于可塑性损失,从而在深度方面有所局限。我们对可塑性损失的深入探讨也将本工作与 Khetarpal 等人 [53] 的综述区分开来,后者讨论了多个 RL 特定的子领域,如信用分配和技能学习。在本综述中,我们强调了可塑性损失与深度 RL 中其他问题(如过度估计偏差 [80] 和扩展性不足 [29])的关系。在深度 RL 范畴内,我们集中探讨单代理场景,因为当前对可塑性损失的理解在该场景下最为深入。

**结构

本综述首先在第 4 节概述了与可塑性损失相关的 RL 形式和定义。正如我们将看到的,可塑性损失直观上容易定义为网络失去学习能力,但文献中尚无统一的定义。在本节中,我们还回顾了用于测试可塑性损失的不同实验设置,包括合成基准测试和 RL 环境。接着,我们在第 5 节分类并展示了文献中假设的可塑性损失的可能原因,并在第 6 节构建了当前缓解方法的分类。在第 7 节中,我们从可塑性损失的角度讨论深度 RL 研究人员和实践者在使用深度 RL 算法时应考虑的因素。最后,在第 8 节,我们对该领域的现状进行了总结,并展望了未来的发展方向。

成为VIP会员查看完整内容
22

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于强化学习的扩散模型微调:教程与综述
专知会员服务
42+阅读 · 2024年7月20日
《大型语言模型持续学习》综述
专知会员服务
82+阅读 · 2024年4月26日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
29+阅读 · 2023年8月28日
【CVPR2023】正则化二阶影响的持续学习
专知会员服务
19+阅读 · 2023年4月22日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
深度学习中的单阶段小目标检测方法综述
专知会员服务
47+阅读 · 2021年11月23日
专知会员服务
66+阅读 · 2021年7月25日
专知会员服务
70+阅读 · 2021年7月21日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
时空数据挖掘:综述
专知
25+阅读 · 2022年6月30日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
无人机集群、蜂群与蜂群算法
无人机
89+阅读 · 2018年9月25日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
Arxiv
163+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
424+阅读 · 2023年3月31日
Arxiv
153+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
基于强化学习的扩散模型微调:教程与综述
专知会员服务
42+阅读 · 2024年7月20日
《大型语言模型持续学习》综述
专知会员服务
82+阅读 · 2024年4月26日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
29+阅读 · 2023年8月28日
【CVPR2023】正则化二阶影响的持续学习
专知会员服务
19+阅读 · 2023年4月22日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
深度学习中的单阶段小目标检测方法综述
专知会员服务
47+阅读 · 2021年11月23日
专知会员服务
66+阅读 · 2021年7月25日
专知会员服务
70+阅读 · 2021年7月21日
相关资讯
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
时空数据挖掘:综述
专知
25+阅读 · 2022年6月30日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
无人机集群、蜂群与蜂群算法
无人机
89+阅读 · 2018年9月25日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员