基于内在动机的深度强化学习探索方法综述

　近年来，深度强化学习在游戏人工智能、机器人等领域取得了诸多重要成就. 然而，在具有稀疏奖励、随机噪声等特性的现实应用场景中，该类方法面临着状态动作空间探索困难的问题. 基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想. 首先解释了深度强化学习探索困难的问题内涵，介绍了 3 种经典探索方法，并讨论了它们在高维或连续场景下的局限性；接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境；在此基础上详细梳理各类探索方法的基本原理、优势和缺陷，包括基于计数、基于知识和基于能力 3 类方法；然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况；最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望.

0 引言

强化学习（reinforcement learning, RL）是监督学习、无监督学习之外的另一机器学习范式, 通过设置反映目标任务的奖励函数, 驱动智能体在与环境的交互与试错中学习能使累计收益最大化的策略[1]。深度强化学习（deep reinforcement learning, DRL）是在强化学习提供的最优决策能力的基础上, 结合深度学习（deep learning, DL）强大的高维数据表征能力来拟合价值函数或策略, 进而基于交互样本训练得到最优价值函数或最优策略, 被认为是结合感知智能和认知智能的有效方法. 深度强化学习在游戏人工智能、机器人、自然语言处理、金融等诸多领域取得了超越人类的性能表现[2-3] , 但在具备稀疏奖励、随机噪声等特性的环境中, 难以通过随机探索方法获得包含有效奖励信息的状态动作样本, 导致训练过程效率低下甚至无法学习到有效策略[4] . 具体来说, 一方面现实应用中往往存在大量奖励信号十分稀疏甚至没有奖励的场景. 智能体在这类场景探索时需要执行一系列特定的动作, 以到达少数特定的状态来获得奖励信号, 这使得在初始时缺乏所处环境知识的智能体很难收集到有意义的奖励信号来进行学习. 例如, 多自由度机械臂在执行移动物体任务中, 需要通过系列复杂的位姿控制将物体抓取并放置到指定位置, 才能获得奖励. 另一方面, 现实环境往往具有高度随机性, 存在意料之外的无关环境要素（如白噪声等）, 大大降低了智能体的探索效率, 使其难以构建准确的环境模型来学习有效策略. 例如, 部署应用在商场的服务机器人在执行视觉导航任务时, 既要受到商场中大量的动态广告图片或视频的传感干扰, 还可能面临动作执行器与环境交互时的结果不确定性, 同时长距离的导航任务也使其难以获得有效正奖励信号. 因此深度强化学习领域亟需解决探索困难问题, 这对提高 DRL 的策略性能和训练效率都十分重要.针对奖励稀疏、随机噪声等引起的探索困难问题, 研究者们提出了基于目标、不确定性度量、模仿学习等探索方法, 但对任务指标的提升效果有限, 并增加了额外的数据获取的代价. 近年来, 源自心理学的内在动机（intrinsic motivation）概念因对人类发育过程的合理解释, 逐渐被广泛应用在 DRL 的奖励设计中以解决探索问题, 成为了 ICML, ICLR, NeurIPS, ICRA 等顶级学术会议上的热点方向, 受到来自清华、斯坦福、牛津、谷歌等顶级高校与研究机构的关注. 虽然已有文献[5-8] 介绍内在动机在深度强化学习领域的研究现状, 但据我们所知, 尚没有文献全面深入研究各类基于内在动机的 DRL 探索方法, 并逐步深入讨论其应用于贴近真实世界的复杂动态场景中所面临的关键问题以及未来的发展方向. 我们从出发点、研究角度分析了相关综述文献与本文的主要区别, 如表 1 所示. 基于上文梳理的深度强化学习面临的探索困难问题, 本文首先介绍 3 种经典探索方法以及它们在高维或连续场景下的局限性, 接着全面梳理 3 类不同的基于内在动机的 DRL 探索方法的基本原理、优势和缺陷, 随后介绍上述基于内在动机的方法在不同领域的应用情况, 最后总结亟需解决的关键问题以及发展方向.

1 经典探索方法

为提高智能体在未知环境中的探索效率, 研究者们提出了简单的随机扰动方法, 例如 -贪婪方法. 除此之外,研究者们在小规模状态动作空间下提出了许多具有理论保证的经典探索方法, 并推导出对应的累计后悔值或样本复杂度的理论上界. 根据统计学中认识世界不确定性的观点, 本文将它们分为频率派方法与贝叶斯派方法.

1.1　随机扰动方法

随机扰动方法可按照加入噪声的位置差异分为 2 类: 一是在动作选择的过程中增加随机性或噪声, 如在ε -贪婪算法中, 以1−ε 的概率选择当前估值最高的动作, 以 ε的概率在所有动作中随机选择. 在此基础上, Boltzmann 策略在学习初期设置较大的值以促进探索, 使值随学习过程逐渐减小, 当策略收敛后完全利用当前模型以持续获得最大奖励. 类似地, 深度确定性策略梯度算法[9] 对策略网络输出的动作加入随机噪声过程进行扰动, 以此增加探索. 二是在拟合策略的网络参数上加入噪声, 比如参数空间噪声模型[10] 和 NoisyNet 模型[11] 等.

1.2 频率派方法

频率派基于实际数据样本的估计来衡量状态的不确定性, 在数据量有限的情况下一般采用带有置信水平的区间估计方法.

1.3 贝叶斯派方法

贝叶斯学派观点认为, 面对未知环境人们维护着对于所有可能模型的概率分布以表达其不确定性, 随着观测证据的增多, 后验分布一般比先验分布更能反映不同备选模型与真实模型的接近程度. 由于在选择动作时不仅依据观测状态, 也必须考虑对信念状态的更新, 贝叶斯强化学习方法被认为有助于提高探索效率, 防止陷入局部最优, 且同时考虑利用现有策略最大化累积收益[18]

**1.4　小　结 **

随机扰动方法缺少对具体状态和动作探索作用的评估, 难以依据对状态的某种度量引导探索过程, 因此无法形成有启发性的探索过程, 也被称为无指导探索[22] . 频率派或贝叶斯派的方法, 大多仅是在小规模场景中推导出了样本复杂度或期望后悔值的上界, 具有一定理论保证, 但很难直接应用到更加复杂的环境如具有动态性和不确定性的实际场景. 例如 MEIB-EB[14] 和 BEB[18] 算法都需对状态动作对有准确的计数, 在小规模的状态和动作空间条件下是可行的, 但无法应用于动态、高维或连续场景中, 亟需启发性更强、计算效率更高的探索方法.

2 基于内在动机的深度强化学习探索方法

为解决大规模状态动作空间中由稀疏奖励、随机噪声干扰等产生的探索困难问题, 研究者们提出了基于目标、不确定性度量和内在动机等深度强化学习探索方法[7-8] . 基于目标探索的方法通过对兴趣状态进行分析来生成探索性子目标, 同时对如何到达子目标的过程进行控制, 以提高智能体在复杂环境中的探索效率. 这类方法偏规划, 重点在于存储状态和轨迹信息, 并根据存储的信息规划生成子目标点, 然后学习如何到达子目标点. 基于不确定性度量的方法通常采用价值函数的贝叶斯后验来显示建模认知不确定性, 或者采用分布式价值函数来额外评估环境内在不确定性, 以鼓励智能体探索具有高度认知不确定性的状态动作对, 并尽量避免访问具有高度内在不确定性的区域. 该方法更多偏向于挖掘价值函数中的不确定性, 体现的是计算思维. 与前 2 类方法相比, 本文所关注的基于内在动机的方法从行为学和心理学中内在动机驱动高等生物自主探索未知环境的机理出发, 将“新颖性”等多种源自内在动机的启发式概念形式化为内在奖励信号, 以驱动智能体自主高效探索环境, 体现的是一种更抽象和拟人的思维. 具体来说, 内在动机源于高等生物在追求提高自主性和能力或掌控力的过程中获得的愉悦感, 是驱动无外界刺激条件下探索未知环境的动力. 内在动机在 DRL 中, 可以被映射为内在奖励信号[23] , 与基于值函数或策略梯度的深度强化学习方法相结合, 形成具备强启发性的探索策略, 以提高智能体探索复杂未知环境的效率。如何在内在奖励信号中形式化“新颖性”“好奇心”“学习提升”“多样性”“控制力”等源自内在动机的启发式概念, 是设计基于内在动机的 DRL 探索方法的关键内容. 根据内在奖励信号的不同启发式来源并参考文献 [24] 中设想的各类基于内在动机的计算框架, 本文将基于内在动机的深度强化学习探索方法主要分为 3 类（见图 1）: 基于计数的方法、基于知识的方法和基于能力的方法.

2.1 基于计数的方法

在高维连续环境中, 难以采用表格化的方式来表示状态, 并且几乎没有任何 2 个观测状态完全相同, 绝大多数状态的真实访问次数都不会超过 1 次, 直接采用经典探索理论方法中基于频率派或贝叶斯派的方法, 得到的计数值无法有效衡量状态新颖性. 针对上述问题, 基于计数的方法一方面借鉴了 UCB 算法的思路, 继承了“面对不确定性的乐观”思想, 即向访问次数较少的状态或状态动作对赋予更高的奖励, 以鼓励智能体尽快探索状态空间的未知部分, 另一方面采用基于相似性的状态泛化的解决思路. 该类方法的实现途径包括伪计数方法[39] 和状态抽象方法 [40] , 其中伪计数方法可细分为基于密度模型的伪计数和间接伪计数方法。

2.4.　基于预测模型的方法现有大量方法为智能体建立和维护一个对动作结果和状态转移进行预测的模型, 以模型精度表达外部环境的不确定性. 以此预测模型为基础, 智能体根据某些新颖性或可预测性的衡量指标学习价值函数或策略. 依据产生内在奖励指标的不同, 可以分为基于预测误差、预测结果不一致性和预测精度提升的方法.

2.5　基于信息论的方法信息论中以熵（entropy）为基础的一系列概念, 天然地为衡量现实世界中的不确定性而生, 因此信息度量也成为形式化启发式概念, 生成内在奖励的重要工具[83] , 用于促进智能体高效探索未知区域.

3 应用研究

基于内在动机的 DRL 探索方法起初应用于游戏领域的智能体策略生成, 随着 DRL 算法在现实场景基于内在动机的 DRL 探索方法通过构建强启发性的探索策略, 可有效应对机器人运动、机械臂操控、空间探索与导航等领域面临的探索困难问题. 此外, 在量化投资、自然语言处理等领域, 基于内在动机的 DRL 探索方法也发挥着重要作用. 例如, 针对股票市场的自动金融交易策略学习问题, Hirchoua 等人[116] 将 PPO 算法与基于好奇心驱动的风险学习的内在奖励相结合进行交易策略学习, 并在 8 个真实股票交易上对其训练得到的策略的适用性和有效性进行了验证; 针对面向目标的对话策略学习问题, Wesselmann 等人[117] 采用基于好奇心的内在奖励来克服稀疏奖励问题, 以改进状态动作空间的探索效率, 从而获取更多有关用户目标的知识来训练对话策略。 **4 总结 **

本文首先描述了 DRL 方法对高效率探索方法的需求、经典方法的原理和局限性, 接着引入了内在动机的概念和功能, 在此基础上重点梳理了内在动机与 DRL 结合的不同形式. 它们主要包括: 1）受新颖性动机驱动的基于计数的内在奖励形式化; 2）受好奇心驱动的预测误差的奖励设计; 3）受学习提升期望驱动的精度提升和信息增益近似方法; 4）以状态多样性为启发式的最大熵方法; 5）追求自主性和控制力的互信息量化方法. 然后介绍了基于内在动机的 DRL 探索技术在机器人运动、机械臂操作、空间探索与导航等领域的应用情况. 最后深入分析了基于内在动机的 DRL 探索方法在应用于贴近真实的复杂场景时, 仍面临着难以构建有效的状态表示、环境认知效率低、复杂目标/任务空间探索效果差等关键问题, 并对基于内在动机的探索方法结合表示学习、知识积累、奖励设计、目标空间探索、课程学习、多智能体强化学习等领域方向开展研究进行了展望.

成为VIP会员查看完整内容

相关内容

深度强化学习

关注 154

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

基于深度强化学习的对手建模方法研究综述

专知会员服务

83+阅读 · 2023年4月17日

「逆向强化学习」最新研究综述

专知会员服务

50+阅读 · 2022年12月19日

基于课程学习的深度强化学习研究综述

专知会员服务

58+阅读 · 2022年11月28日

「人机对抗中的博弈学习方法」最新2022综述

专知会员服务

117+阅读 · 2022年9月11日