近年来,深度强化学习在游戏人工智能、机器人等领域取得了诸多重要成就. 然而,在具有稀疏奖 励、随机噪声等特性的现实应用场景中,该类方法面临着状态动作空间探索困难的问题. 基于内在动机的 深度强化学习探索方法是解决上述问题的一种重要思想. 首先解释了深度强化学习探索困难的问题内涵, 介绍了 3 种经典探索方法,并讨论了它们在高维或连续场景下的局限性;接着描述了内在动机引入深度 强化学习的背景和算法模型的常用测试环境;在此基础上详细梳理各类探索方法的基本原理、优势和缺 陷,包括基于计数、基于知识和基于能力 3 类方法;然后介绍了基于内在动机的深度强化学习技术在不同 领域的应用情况;最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累 等领域方向的研究展望.
0 引言
强化学习(reinforcement learning, RL)是监督学习、 无监督学习之外的另一机器学习范式, 通过设置反 映目标任务的奖励函数, 驱动智能体在与环境的交 互与试错中学习能使累计收益最大化的策略[1]。深度强化学习(deep reinforcement learning, DRL) 是在强化学习提供的最优决策能力的基础上, 结合 深度学习(deep learning, DL)强大的高维数据表征能 力来拟合价值函数或策略, 进而基于交互样本训练 得到最优价值函数或最优策略, 被认为是结合感知 智能和认知智能的有效方法. 深度强化学习在游戏人工智能、机器人、自然 语言处理、金融等诸多领域取得了超越人类的性能 表现[2-3] , 但在具备稀疏奖励、随机噪声等特性的环境 中, 难以通过随机探索方法获得包含有效奖励信息 的状态动作样本, 导致训练过程效率低下甚至无法 学习到有效策略[4] . 具体来说, 一方面现实应用中往往存在大量奖励信号十分稀疏甚至没有奖励的场景. 智能体在这类场景探索时需要执行一系列特定的动 作, 以到达少数特定的状态来获得奖励信号, 这使得 在初始时缺乏所处环境知识的智能体很难收集到有 意义的奖励信号来进行学习. 例如, 多自由度机械臂 在执行移动物体任务中, 需要通过系列复杂的位姿 控制将物体抓取并放置到指定位置, 才能获得奖励. 另一方面, 现实环境往往具有高度随机性, 存在意料 之外的无关环境要素(如白噪声等), 大大降低了智 能体的探索效率, 使其难以构建准确的环境模型来 学习有效策略. 例如, 部署应用在商场的服务机器人 在执行视觉导航任务时, 既要受到商场中大量的动 态广告图片或视频的传感干扰, 还可能面临动作执 行器与环境交互时的结果不确定性, 同时长距离的 导航任务也使其难以获得有效正奖励信号. 因此深 度强化学习领域亟需解决探索困难问题, 这对提高 DRL 的策略性能和训练效率都十分重要.针对奖励稀疏、随机噪声等引起的探索困难问 题, 研究者们提出了基于目标、不确定性度量、模仿 学习等探索方法, 但对任务指标的提升效果有限, 并 增加了额外的数据获取的代价. 近年来, 源自心理学 的内在动机(intrinsic motivation)概念因对人类发育 过程的合理解释, 逐渐被广泛应用在 DRL 的奖励设 计中以解决探索问题, 成为了 ICML, ICLR, NeurIPS, ICRA 等顶级学术会议上的热点方向, 受到来自清华、 斯坦福、牛津、谷歌等顶级高校与研究机构的关注. 虽然已有文献[5-8] 介绍内在动机在深度强化学习领域 的研究现状, 但据我们所知, 尚没有文献全面深入研 究各类基于内在动机的 DRL 探索方法, 并逐步深入 讨论其应用于贴近真实世界的复杂动态场景中所面 临的关键问题以及未来的发展方向. 我们从出发点、 研究角度分析了相关综述文献与本文的主要区别, 如表 1 所示. 基于上文梳理的深度强化学习面临的探索困难 问题, 本文首先介绍 3 种经典探索方法以及它们在高 维或连续场景下的局限性, 接着全面梳理 3 类不同的 基于内在动机的 DRL 探索方法的基本原理、优势和 缺陷, 随后介绍上述基于内在动机的方法在不同领 域的应用情况, 最后总结亟需解决的关键问题以及 发展方向.
1 经典探索方法
为提高智能体在未知环境中的探索效率, 研究 者们提出了简单的随机扰动方法, 例如 -贪婪方法. 除此之外,研究者们在小规模状态动作空间下提出了 许多具有理论保证的经典探索方法, 并推导出对应 的累计后悔值或样本复杂度的理论上界. 根据统计 学中认识世界不确定性的观点, 本文将它们分为频 率派方法与贝叶斯派方法.
1.1 随机扰动方法
随机扰动方法可按照加入噪声的位置差异分为 2 类: 一是在动作选择的过程中增加随机性或噪声, 如在ε -贪婪算法中, 以1−ε 的概率选择当前估值最高 的动作, 以 ε的概率在所有动作中随机选择. 在此基 础上, Boltzmann 策略在学习初期设置较大的 值以促 进探索, 使 值随学习过程逐渐减小, 当策略收敛后 完全利用当前模型以持续获得最大奖励. 类似地, 深 度确定性策略梯度算法[9] 对策略网络输出的动作加 入随机噪声过程进行扰动, 以此增加探索. 二是在拟 合策略的网络参数上加入噪声, 比如参数空间噪声 模型[10] 和 NoisyNet 模型[11] 等.
1.2 频率派方法
频率派基于实际数据样本的估计来衡量状态的 不确定性, 在数据量有限的情况下一般采用带有置 信水平的区间估计方法.
1.3 贝叶斯派方法
贝叶斯学派观点认为, 面对未知环境人们维护 着对于所有可能模型的概率分布以表达其不确定性, 随着观测证据的增多, 后验分布一般比先验分布更 能反映不同备选模型与真实模型的接近程度. 由于 在选择动作时不仅依据观测状态, 也必须考虑对信 念状态的更新, 贝叶斯强化学习方法被认为有助于 提高探索效率, 防止陷入局部最优, 且同时考虑利用 现有策略最大化累积收益[18]
**1.4 小 结 **
随机扰动方法缺少对具体状态和动作探索作用 的评估, 难以依据对状态的某种度量引导探索过程, 因此无法形成有启发性的探索过程, 也被称为无指 导探索[22] . 频率派或贝叶斯派的方法, 大多仅是在小 规模场景中推导出了样本复杂度或期望后悔值的上 界, 具有一定理论保证, 但很难直接应用到更加复杂 的环境如具有动态性和不确定性的实际场景. 例如 MEIB-EB[14] 和 BEB[18] 算法都需对状态动作对有准确 的计数, 在小规模的状态和动作空间条件下是可行 的, 但无法应用于动态、高维或连续场景中, 亟需启 发性更强、计算效率更高的探索方法.
2 基于内在动机的深度强化学习探索方法
为解决大规模状态动作空间中由稀疏奖励、随 机噪声干扰等产生的探索困难问题, 研究者们提出 了基于目标、不确定性度量和内在动机等深度强化 学习探索方法[7-8] . 基于目标探索的方法通过对兴趣 状态进行分析来生成探索性子目标, 同时对如何到 达子目标的过程进行控制, 以提高智能体在复杂环 境中的探索效率. 这类方法偏规划, 重点在于存储状 态和轨迹信息, 并根据存储的信息规划生成子目标 点, 然后学习如何到达子目标点. 基于不确定性度量 的方法通常采用价值函数的贝叶斯后验来显示建模 认知不确定性, 或者采用分布式价值函数来额外评 估环境内在不确定性, 以鼓励智能体探索具有高度 认知不确定性的状态动作对, 并尽量避免访问具有 高度内在不确定性的区域. 该方法更多偏向于挖掘 价值函数中的不确定性, 体现的是计算思维. 与前 2 类方法相比, 本文所关注的基于内在动机 的方法从行为学和心理学中内在动机驱动高等生物 自主探索未知环境的机理出发, 将“新颖性”等多种 源自内在动机的启发式概念形式化为内在奖励信号, 以驱动智能体自主高效探索环境, 体现的是一种更 抽象和拟人的思维. 具体来说, 内在动机源于高等生 物在追求提高自主性和能力或掌控力的过程中获得 的愉悦感, 是驱动无外界刺激条件下探索未知环境 的动力. 内在动机在 DRL 中, 可以被映射为内在奖励 信号[23] , 与基于值函数或策略梯度的深度强化学习方 法相结合, 形成具备强启发性的探索策略, 以提高智 能体探索复杂未知环境的效率。 如何在内在奖励信号中形式化“新颖性”“好奇 心”“学习提升”“多样性”“控制力”等源自内在动机的启发式概念, 是设计基于内在动机的 DRL 探索方 法的关键内容. 根据内在奖励信号的不同启发式来 源并参考文献 [24] 中设想的各类基于内在动机的计 算框架, 本文将基于内在动机的深度强化学习探索 方法主要分为 3 类(见图 1): 基于计数的方法、基于 知识的方法和基于能力的方法.
2.1 基于计数的方法
在高维连续环境中, 难以采用表格化的方式来 表示状态, 并且几乎没有任何 2 个观测状态完全相 同, 绝大多数状态的真实访问次数都不会超过 1 次, 直接采用经典探索理论方法中基于频率派或贝叶斯 派的方法, 得到的计数值无法有效衡量状态新颖性. 针对上述问题, 基于计数的方法一方面借鉴了 UCB 算法的思路, 继承了“面对不确定性的乐观”思想, 即 向访问次数较少的状态或状态动作对赋予更高的奖 励, 以鼓励智能体尽快探索状态空间的未知部分, 另 一方面采用基于相似性的状态泛化的解决思路. 该 类方法的实现途径包括伪计数方法[39] 和状态抽象方 法 [40] , 其中伪计数方法可细分为基于密度模型的伪计 数和间接伪计数方法。
2.4. 基于预测模型的方法 现有大量方法为智能体建立和维护一个对动作 结果和状态转移进行预测的模型, 以模型精度表达 外部环境的不确定性. 以此预测模型为基础, 智能体 根据某些新颖性或可预测性的衡量指标学习价值函 数或策略. 依据产生内在奖励指标的不同, 可以分为 基于预测误差、预测结果不一致性和预测精度提升 的方法.
2.5 基于信息论的方法 信息论中以熵(entropy)为基础的一系列概念, 天 然地为衡量现实世界中的不确定性而生, 因此信息 度量也成为形式化启发式概念, 生成内在奖励的重 要工具[83] , 用于促进智能体高效探索未知区域.
3 应用研究
基于内在动机的 DRL 探索方法起初应用于游戏 领域的智能体策略生成, 随着 DRL 算法在现实场景基于内在动机的 DRL 探索方法通过构建强启发 性的探索策略, 可有效应对机器人运动、机械臂操控、 空间探索与导航等领域面临的探索困难问题. 此外, 在量化投资、自然语言处理等领域, 基于内在动机的 DRL 探索方法也发挥着重要作用. 例如, 针对股票市 场的自动金融交易策略学习问题, Hirchoua 等人[116] 将 PPO 算法与基于好奇心驱动的风险学习的内在奖 励相结合进行交易策略学习, 并在 8 个真实股票交易 上对其训练得到的策略的适用性和有效性进行了验 证; 针对面向目标的对话策略学习问题, Wesselmann 等人[117] 采用基于好奇心的内在奖励来克服稀疏奖励 问题, 以改进状态动作空间的探索效率, 从而获取更 多有关用户目标的知识来训练对话策略。 **4 总结 **
本文首先描述了 DRL 方法对高效率探索方法的 需求、经典方法的原理和局限性, 接着引入了内在动 机的概念和功能, 在此基础上重点梳理了内在动机 与 DRL 结合的不同形式. 它们主要包括: 1) 受新颖 性动机驱动的基于计数的内在奖励形式化; 2) 受好 奇心驱动的预测误差的奖励设计; 3) 受学习提升期 望驱动的精度提升和信息增益近似方法; 4) 以状态 多样性为启发式的最大熵方法; 5) 追求自主性和控 制力的互信息量化方法. 然后介绍了基于内在动机 的 DRL 探索技术在机器人运动、机械臂操作、空间 探索与导航等领域的应用情况. 最后深入分析了基 于内在动机的 DRL 探索方法在应用于贴近真实的复 杂场景时, 仍面临着难以构建有效的状态表示、环境 认知效率低、复杂目标/任务空间探索效果差等关键 问题, 并对基于内在动机的探索方法结合表示学习、 知识积累、奖励设计、目标空间探索、课程学习、多 智能体强化学习等领域方向开展研究进行了展望.