摘要: 基于因果建模的强化学习技术在智能控制领域越来越受欢迎. 因果技术可以挖掘控制系统中的结构性因果知识, 并提供了一个可解释的框架, 允许人为对系统进行干预并对反馈进行分析. 量化干预的效果使智能体能够在复杂的情况下 (例如存在混杂因子或非平稳环境) 评估策略的性能, 提升算法的泛化性. **本文旨在探讨基于因果建模的强化学习控制技术 (以下简称因果强化学习) 的最新进展, 阐明其与控制系统各个模块的联系. 首先介绍了强化学习的基本概念和经典算法, 并讨论强化学习算法在变量因果关系解释和迁移场景下策略泛化性方面存在的缺陷. **其次, 回顾了因果理论的研究方向, 主要包括因果效应估计和因果关系发现, 这些内容为解决强化学习的缺陷提供了可行方案. 接下来, 阐释了如何利用因果理论改善强化学习系统的控制与决策, 总结了因果强化学习的四类研究方向及进展, 并整理了实际应用场景. 最后, 对全文进行总结, 指出了因果强化学习的缺点和待解决问题, 并展望了未来的研究方 向.
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220823
近年来, 人工智能的研究范围不断拓宽, 并在医疗健康、电力系统、智慧交通和机器人控制等多个重要领域取得了卓越的成就. 以强化学习为代表的行为决策和控制技术是人工智能驱动自动化技术的典型代表, 与深度学习相结合构成了机器智能决策的闭环[1]. 强化学习控制是指基于强化学习技术制定控制系统中行动策略的方法. 强化学习的主体, 即智能体, 通过交互的手段从环境中获得反馈, 以试错的方式优化行动策略. 由于擅长处理变量间复杂的非线性关系, 强化学习在面对高维和非结构化数据时展现出了极大的优势. 随着大数据时代的到来, 强化学习控制技术快速崛起, 在学术界和产业界获得了广泛关注, 并在博弈[2-5]、电力系统[6-7]、自动驾驶[8-9]和机器人系统[10]等领域取得了巨大突破. 在实际系统应用中, 强化学习被广泛应用于路径规划和姿态控制等方面, 并在高层消防无人机路径规划[11]和多四旋翼无人机姿态控制[12]等实际任务中取得了良好的控制性能.尽管如此, 强化学习在处理控制任务时仍面临一些缺陷, 主要体现在以下两个方面. 一是难以在强化学习过程中进行因果推理. 大多数强化学习控制算法是基于采样数据间的相关关系完成对模型的训练, 缺少对变量间因果效应的判断. 而在控制任务中, 任务的泛化和模型的预测通常建立在因果关系之上. 越来越多的证据表明, 只关注相关性而不考虑因果性, 可能会引入虚假相关性, 对控制任务造成灾难性的影响[13]. 二是无法在迁移的场景下保证控制算法的泛化性. 泛化性是指强化学习模型迁移到新环境并做出适应性决策的能力, 要求学习的策略能够在相似却不同的环境中推广. 然而在面临环境改变或者任务迁移时, 智能体收集到的观测数据表现出非平稳性或异构性, 训练数据和测试数据的独立同分布条件受到破坏. 在这种情况下, 强化学习算法常常表现不佳, 无法保证策略的泛化性[14-15], 难以直接推广到更普遍的控制场景.为了解决上述问题, 目前研究人员尝试在强化学习任务中引入因果理论, 提出了基于因果建模的强化学习控制算法. 因果强化学习的中心任务是在控制问题中建立具有因果理解能力的模型, 揭示系统变量之间的因果关系, 估计数据之间的因果效应, 进一步通过干预和推断, 理解智能体的运行机理. 近年来, 包括ICLR, NeurIPS, ICML和AAAI在内的人工智能重要国际会议多次设立研讨会, 探索因果理论在机器学习领域的发展和应用[16-19]. 越来越多控制性能优异的因果强化学习算法被陆续提出, 成为最新的研究热点. 建立可解释的因果模型并保证算法的合理决策, 是加速推广强化学习控制算法落地的必要条件, 具有理论意义和应用价值. 本文的主旨是梳理目前因果强化学习的研究现状, 讨论因果理论如何提供变量间因果关系的解释, 帮助改善非平稳或异构环境下的可迁移的决策, 提高数据利用率, 并对未来工作方向提供可借鉴的思路.本文内容安排如下: 第1节介绍强化学习的基本概念和经典算法, 并指出传统强化学习算法的缺陷. 第2节介绍因果关系和因果模型的概念, 总结因果效应估计和因果关系发现的研究内容, 为解决强化学习的缺陷提供了可行方案. 第3节构建因果强化学习系统的抽象模型, 在此基础上整理出四个研究方向, 综述了因果强化学习的最新研究进展并总结了应用场景. 第4节总结全文, 指出了因果强化学习的缺点和待解决的问题, 并对未来的发展趋势进行展望.
在本节中, 我们将详细阐述如何利用因果关系改善强化学习控制与决策. 强化学习的目标是最大化期望累积奖励, 智能体本身不具备因果推理的能力. 如1.3节所述, 现有的强化学习算法存在两类缺陷. 幸运的是, 这两类缺陷恰好可以通过引入因果关系来解决. 与一般的强化学习控制不同, 因果强化学习可以区分系统变量之间的虚假相关性和因果关系. 接下来以倒立摆系统为例, 说明如何将因果分析融入强化学习系统, 辨别虚假相关性. 倒立摆系统是强化学习领域的基准测试环境. 智能体对小车施加动作a, 令其沿着无摩擦水平轨道左右移动, 控制目标是防止车上的杆跌落. 因此在杆保持直立的每个时刻, 智能体获得奖励rt=+1,. 状态变量s分别为小车位置、小车速度、杆与车之间的角度和角速度. 因果强化学习的处理流程如下: 首先从控制任务 (如图3(a)所示) 中采样观测数据, 具体包括状态变量、动作变量和奖励变量 (如图3(b)所示); 然后利用因果理论, 从观测数据中提取高层的因果特征, 并将其形式化表示成一个能够反映数据生成过程的因果结构 (如图3(c)所示). 通过这种方式直观地展示虚假关系 (虚线) 和因果关系 (实线), 降低冗余信息的影响, 提高数据利用率. 此外, 强化学习数据采集过程中常常存在选择偏倚问题. 在控制系统中引入因果分析有助于理解偏倚, 并利用do算子实现对干预效果的形式化推理. 例如, 在图3(c)中对动作at进行干预do(A=a′t)(如绿线所示) 只会影响因果图中的子代变量st+1,i 而对其他非因果变量st+1,j不产生影响, 从而可以进行有针对的干预.
图 3 在倒立摆系统中提取系统变量之间的因果关系与一般机器学习算法不同, 在强化学习中, 智能体不仅能够观测环境, 还可以用行动 (或干预) 塑造环境. 因此与其他机器学习应用场景相比, 强化学习更易于融合因果理论. 目前, 因果理论在强化学习领域的研究已初现端倪. 因果强化学习的基本任务是将因果建模的思想融入强化学习过程中, 旨在解决强化学习的可解释性问题和泛化性问题, 提高数据利用率. 研究的关键问题是如何利用因果知识显式地提取系统的结构不变性, 同时提升控制性能.**2.1 学习算法的结构 **根据已有的研究成果, 我们在图 4 中展示了如 何将因果技术集成到强化学习控制系统中, 并将因 果强化学习的研究方向分为两大类: 1) 利用因果发 现构建因果模型, 即给定观测数据 (尤其是高维和 非结构化数据), 提取系统的低维因果特征和因果关 系, 搭建系统的因果模型; 2) 利用因果推理实现策 略优化, 即给定因果模型, 分析系统对干预将作出 何种反应并进行策略规划. 现有因果强化学习算法 总结在表 3 中.
2.2.1 因果表征提取在强化学习控制系统中, 系统的输入状态可能是高维或非结构化数据. 因此引入恰当的结构化表征可以对冗余的原始数据进行信息提取, 有助于解决强化学习的可解释性问题. 总的来说, 和强化学习控制相关的因果表征提取主要分为基于POMDP的表征提取和存在混杂因子的表征提取.基于POMDP的表征提取通常假设观测数据O(通常是高维或非结构化数据, 如像素输入) 由潜在状态S 生成, 智能体根据策略π(A|O)采取行动, 通过与环境交互获得观测数据, 并基于观测数据恢复潜在状态. 与显式的MDP不同 (如图5(a)所示), 基于POMDP的表征提取 (如图5(b)所示) 的关键问题在于如何找到O→S的映射, 并根据过去的动作A≤t 和过去的潜在状态S≤t预测未来的潜在状态S>t, 学习底层因果图结构. Yao和Sun等[82]指出潜在时序因果状态在一定场景下是可识别的, 该研究为基于POMDP的表征提取提供了理论保证. 该类方法的代表性工作包括动作充分状态表示ASR (Action-sufficient state representation)[83]和因果正确部分模型CCPM (Causally correct partial models)[84]. ASR以最大化累积奖励为目标, 基于变量结构关系建立环境生成模型, 以因果结构为约束提取出足够决策的最小状态表示集. 在ASR的框架下, 策略学习与表征学习可以分开进行, 且策略函数只依赖于低维状态表征, 从而提高了样本利用率, 缺点是没有扩展到可迁移的场景下. 为了在策略发生变化的情况下对模型进行修正, 解决部分模型中因果不正确的问题, CCPM结合概率模型和因果推理, 提出了因果正确的部分可观模型, 提高了模型的鲁棒性. 此外, 部分研究人员致力于将因果技术和POMDP融入一个框架内进行分析. Sontakke等[85]引入了因果好奇心 (Causal curiosity) 作为内在奖励, 鼓励智能体在探索性交互时, 通过自监督的方式发现环境中变化的因果机制. Gasse等[86]通过引入do算子, 将有模型的强化学习表示为因果推理问题, 并且使用观测数据和干预数据共同推断POMDP的状态转移方程. 由于假设观测空间要小于离散状态空间, 因此该方法的缺点是只能处理维数较低的观测空间. 为了解决高维观测空间问题, Zhang等[87]利用循环神经网络从观测数据中学习近似的因果状态表示, 并在Lipschitz假设下为该表示连续版本的最优性提供了理论保证.
存在混杂因子的表征提取方法则考虑更一般的实际场景, 假设系统中存在未能直接观测到的混杂因子. 此时, 系统的状态转移模型和奖励模型将会受到影响, 阻碍行为策略的有效学习. 以自动驾驶场景为例, 智能体从不同场景中收集的离线数据可能依赖于某些未被观测的因素 (如交通的复杂度或道路设计的合理性). 当训练场景为行人过马路时, 智能体可能会从观测中错误地推断出“只要踩下刹车, 就会有行人出现在汽车前面”这种结论, 从而引入虚假相关性. 这种由混杂因子导致的虚假相关性, 使得观测数据无法提供有效信息, 甚至会误导因果效应识别. 在此情况下, POMDP模型可能会被未能准确描述的观测数据迷惑, 推导出错误的因果模型, 进而导致不正确的策略规划. 因此存在混杂因子的表征提取方法的关键问题在于去除或估计混杂因子, 以减少虚假相关性对后续因果模型推导的影响. 在混杂因子建模上, 早期的工作包括存在未观测混杂因子的多臂老虎机问题MABUC (Multi-armed bandit problem with unobserved confounders)[88]和Kullback-Leibler置信上限B-kl-UCB (B-Kullback–Leibler upper confidence bounds)[89]. MABUC通过引入结构因果模型, 将具有混杂因子的多臂老虎机问题表示为因果推理问题. MABUC首次将混杂因子和强化学习融入一个框架之中进行分析, 缺点是模型需要在线学习, 而且没有考虑知识迁移的场景. 在MABUC的框架下, B-kl-UCB利用结构知识推导智能体分布的界限, 将工作拓展到离线且可迁移的场景下. 在混杂因子去除方面, Lu等[90]提出了去混杂强化学习框架, 使用自动变分编码器估计潜在变量模型, 发现隐藏的混杂因子并推断因果效应. 尽管该框架允许嵌入强化学习算法进行策略更新, 缺点是要求每一个混杂因子都需要体现在潜在变量模型中, 且无法给出明确的遗憾值③. 为了在有限遗憾值内识别最优治疗方案, Zhang等[91]在观测数据存在混杂因子的情况下, 利用结构因果模型和独立性约束, 降低候选策略空间的维度, 简化问题的复杂度, 缺点是模型需要在线学习. 为了充分利用离线数据提高样本效率, Wang等[92]提出了一种去混杂的最优值迭代方法, 综合考虑了部分可观的混杂因子和完全不可观的混杂因子两种情况, 通过后门准则和前门准则显式地调整观测数据中的混杂偏差, 并且提供了遗憾值的表达.2.2.2 建立可迁移的环境因果模型强化学习问题通常假定训练样本和测试样本满足独立同分布的条件. 在面临环境改变或者任务迁移时, 独立同分布的假设受到破坏, 在特定领域学习的最优策略无法推广到其他领域, 导致控制性能下降[93]. 因此在面对非平稳或异构环境时, 智能体不仅需要识别变化, 更需要适应这些变化. 幸运的是, 非平稳或异构数据已被证明有助于识别因果特征. 可迁移的环境因果模型致力于实现可靠、低成本、可解释的模型迁移, 关键问题在于提取正确的知识表示, 找出哪些因素发生了变化、在哪里变化、如何变化, 使得在源域训练的模型能够在新的场景下实现快速迁移. 可迁移的环境因果模型通常基于以下三个原则[94]: 1) 独立因果机制. 系统变量的因果生成过程由互不影响的独立模块组成. 给定原因, 每个变量的条件分布不会影响其他模块. 2) 最小变化原则[50]或稀疏机制迁移. 细微的分布变化往往以稀疏或局部的方式在因果分解P(X1,⋯,Xn)=∑ni=1P(Xi|Pa(Xi))中表现出来. 当数据分布发生变化时, 仅有少量的模块和参数需要改变. 3) 相似因果动态. 该假设允许训练数据和测试数据来自不同的分布, 但涉及 (大致) 相同的因果状态转移方程. 例如在机器人导航过程中, 房间内的光照条件可能会发生变化, 但环境的动力学模型仍然是相同的. 基于以上原则, 目前有三种研究方向用于构建可迁移的因果环境模型.1) 利用结构因果模型编码变化模块. 根据最小变化原则或稀疏机制迁移原则, 当因果模型得到恰当表示时, 仅需要更新少量的模块和参数就可以实现分布迁移, 进而提高策略的鲁棒性. 在强化学习框架下, 结构因果模型不仅能够表征变量之间的结构关系, 还可以显式地编码跨域的变化模块. 因此这类问题的研究重点在于如何编码最小的可迁移模块. 在MDP的框架下, Sun等[79]基于结构因果模型拟合环境的动态转移方程, 并将跨域变化的模块集成为一个外生变量λ, 通过更新λ实现环境分布的迁移. 在POMDP的框架下, Huang等[95]提出一种自适应强化学习算法AdaRL (Adaptive reinforcement learning). AdaRL利用图模型实现最小状态表征, 包括特定域的变化因素和共享域的状态表示, 同时对状态动态、观察函数和奖励函数的变化进行建模, 利用因子分解提高数据利用率, 只需要来自目标域的少量样本就可以实现稳健有效的策略迁移.2) 寻找因果不变性. 得益于独立因果机制, 我们可以将数据生成过程视为一些独立模块, 通过寻找因果不变性发现因果结构. 在这种情况下, 研究人员通常需要基于相似动态的多个环境挖掘环境的潜在结构, 进而实现良好的泛化. 对于观测分布不同但是潜在因果结构相同的环境族, Zhang等[96]考虑区块MDP的因果不变性预测, 其中不同场景下的观测分布会发生变化, 但潜在状态空间中环境动态和奖励函数是相同的. 文章提出一种不变预测方法提取潜在状态, 并将其迁移到多环境场景下, 解决了潜在空间动态结构的泛化问题. 遵循类似的思路, 因果情景强化学习算法CCRL (Causal contextual reinforcement learning)[97]假设情景变量的变化会导致状态分布的变化. CCRL利用情景注意力模块提取解耦特征, 并将其视为因果机制. 通过改变解耦特征, 提高智能体在新场景下的泛化性能. Zhu等[98]将不同状态下的动作效果作为不变性来推断因果关系, 提出了不变动作效果模型IAEM (Invariant action effect model). IAEM将相邻状态特征的残差作为动作效果, 在不同场景下实现自适应迁移, 提高了样本的利用率和策略的泛化性.3) 引入因果关系的模仿学习. 在模仿学习任务中, 智能体直接从专家提供的范例中学习控制策略. 由于传统的模仿学习是非因果的, 智能体不知道专家与环境交互的因果结构. 忽略因果关系的盲目模仿会导致反直觉的因果错误识别现象[99], 进而导致模仿策略失效. Haan等[99]指出, 基于专家行为的真实因果模型可以减少因果错误识别的影响. 文章通过环境交互或专家查询的方式对观测数据进行有针对性的干预, 学习正确的因果模型. Etesami等[100]假定系统中某些模块因果机制发生变化, 但动作效果机制保持不变, 并在此基础上分析了因果机制的可识别情况, 解决了传感器偏倚情况下的策略迁移问题. 尽管大多数模仿学习任务都假定专家变量可完全观测, 但是实际系统中可能存在混杂因子, 对模仿学习造成不利影响. 针对存在未被观测的混杂因子场景, Zhang等[101]利用结构因果模型学习专家范例的数据生成过程, 并利用观测数据中包含的定量知识学习模仿策略. Park等[102]以提取语义对象的方式调整模仿策略, 提出了对象感知正则化算法OREO (Object-aware regularization). 为了防止策略学习到与专家行为密切相关的混杂因子, OREO鼓励策略统一关注所有语义对象, 显著提高了模仿学习的性能.
2.3.1 动作效果估计在强化学习的场景下, 动作效果估计的关键问题在于: 1) 量化智能体动作对环境造成的影响, 2) 获得数据的无偏估计, 进而通过干预因果图改变策略分布, 有效地指导策略更新.针对稀疏奖励下的探索和信用分配问题, Corcoll等[103]提出了一种基于受控效果的分层强化学习结构CEHRL (Controlled effects for hierarchical reinforcement learning). CEHRL智能体基于随机效应进行探索, 并依靠反事实推理识别动作对环境的因果影响. 分层式的结构允许高层策略设置跟时间有关的目标, 以此实现长期信用分配, 高效地学习特定任务的行为. Seitzer等[104]引入了基于条件互信息的情境相关因果影响度量SDCI (Situation-dependent causal influence), 用于衡量动作对环境的因果影响, 进而有效地指导学习. 通过将SDCI集成到强化学习算法中, 改进智能体探索能力和离线策略学习性能. 针对强化学习样本效率不高的问题, Pitis等[105]定义了局部因果模型, 并提出了一种用于反事实数据增强的算法, 使用基于注意力的方法在解耦状态空间中发现局部因果结构. 这种局部因果结构可用于提高模型的预测性能, 改善非策略强化学习的样本效率. 为了构建与强化学习智能体相关的有效因果表示, Herlau等[106]以最大化自然间接效应为目标识别因果变量. 识别的因果变量可以集成环境的特征, 从而确保因果表征与智能体相关.此外, 虽然动作效果估计可以量化干预和结果之间的影响, 但是采集的观测数据受现有的策略影响, 可能会间接造成选择偏倚问题. 为了实现数据的无偏估计, 研究人员常常采用重要性采样加权[107]进行离线策略评估, 但是该方法具有高方差和高度依赖权重的缺陷. 为了从观测数据中选择最佳策略, Atan等[108]考虑了观测数据评估新策略时的产生的估计误差, 提供了估计误差的理论界限, 并提出了一种使用域对抗神经网络选择最优策略的方法, 结果表明估计误差取决于观测数据和随机数据之间的H散度. 在批量学习的场景下, Swaminathan等[109]指出仅对离策略系统的性能进行无偏估计不足以实现稳健学习, 还需要在假设空间中推断估计量的方差有何不同. 该项研究通过倾向性评分设计了反事实估计器, 提出了反事实风险最小化原则, 证明了倾向加权经验风险估计计量方差的广义误差界限. 为了学习结构化输出预测的随机线性规则, 提出了指数模型策略优化器, 从而实现有效的随机梯度优化. 为了消除由旧策略和新策略引起的分布偏倚, 精确评估新策略的效果, Zou等[110]提出了重点上下文平衡算法FCB (Focused context balancing), 用于学习上下文平衡的样本权重.2.3.2 反事实动作推理利用因果框架, 智能体可以进一步回答与强化学习控制任务相关的反事实问题. 例如在已有观测数据的前提下, “如果策略中的某些动作发生变化, 系统的控制性能能否提升”? 目前, 反事实动作推理已经被证明可以提高强化学习算法的样本效率和可解释性[81,111]. Madumal等[112]提出了一种基于结构因果模型的行为影响模型, 利用因果模型进行反事实分析, 提高了模型的可解释性. 在非平稳数据的场景下, Lu等[81]提出了一种基于反事实的数据增强算法. 该算法利用结构因果模型对环境动态进行建模, 并基于多领域数据的的共性和差异进行因果模型估计. 智能体可以根据结构因果模型进行反事实推理, 解决了有限经验导致策略偏倚的问题, 避免风险性探索. 同时利用反事实推理进行数据集扩充, 提高了数据利用率. 在POMDP的框架下, Buesing等[111]提出了反事实指导的策略搜索算法CF-GPS (Counterfactually-guided policy search), 基于结构因果模型对任意策略进行反事实评估, 改善策略性能, 消除模型预测的偏差.
因果强化学习作为一种通用的学习算法, 目前在机器人控制[104,113]、医疗健康[91]、推荐系统[114]、金融投资[115]和游戏控制[116]等多个领域中有着广泛的应用. 在机器人控制领域, Liang等[113]在仿真机械臂控制系统中, 将神经网络与概率图模型相结合, 构建了观测数据的因果图模型, 控制机械臂进行绘画操作和轮胎拆卸, 提高了数据利用率和强化学习算法的可解释性. 在医疗健康领域, Zhang等[91]基于因果强化学习在肺癌和呼吸困难数据集上设计了最佳动态治疗方案, 提升了算法的在线性能和数据效率. 在推荐系统领域, Bottou等[114]基于Bing搜索引擎的广告投放系统, 利用因果推理理解用户与环境交互的行为, 致力于合理地使用因果推理和机器学习技术进行广告投放. 在金融投资领域, Wang等[115]提出了一种优化投资策略的深度强化学习方法DeepTrader. 该方法将风险收益平衡问题构建为强化学习问题, 并利用分层图结构建模资产的时空相关性. 其估计的因果结构能够反映资产之间的相互关系, 有效平衡收益与风险. 在游戏控制领域, Shi等[116]针对Atari 2600游戏环境, 提出了时空因果解释模型, 对观测数据与智能体决策之间的时序因果关系进行建模, 并使用一个单独的因果发现网络来识别时空因果特征. Madumal等[112]在星际争霸游戏环境中使用因果模型来推导无模型强化学习智能体行为的因果解释. 利用结构因果模型对系统进行建模, 然后基于反事实推理生成对动作的解释.
由于在可解释性以及跨域迁移等方面展现出优势, 因果理论已经被广泛应用于强化学习领域, 并且在控制系统中表现出了良好的性能. 本文致力于阐述因果强化学习算法如何探索数据之间的因果关系, 并在决策过程中提供因果解释. 因果强化学习以无监督的的方式构建环境的因果模型, 实现跨域分布泛化, 并利用因果模型进行推理, 设计有效的干预措施进行策略更新. 本文首先概述了强化学习和因果理论的背景知识, 在此基础上, 对因果强化学习的研究现状进行阐述. 针对强化学习领域的两类研究缺陷, 总结了四类研究方向, 具体包括: 1) 因果表征提取; 2) 可迁移的环境因果模型; 3) 动作效果估计和4) 反事实动作推理.虽然基于因果建模的强化学习控制可以解决强化学习可解释性和可迁移性的问题, 提升数据利用率, 但是仍存在以下缺点: 1) 依赖不可测试假设. 尽管目前已有多项研究成果可以根据观测数据估计因果结构, 但这些方法通常是不可扩展的, 依赖于不可测试的假设 (如因果忠诚性假设), 因此难以融入高维、复杂和非线性的强化学习系统. 2) 欠缺理论研究基础. 目前针对因果强化学习理论层面上的研究还远远不够. 例如在因果表征领域, 现有的可识别性理论研究大多基于非平稳或时序数据, 并且需要对模型类型做出较强的假设. 在更一般的场景下 (如因果关系发生变化或存在瞬时因果关系) 的可识别性理论研究目前还是空白. 3) 难以保证控制性能. 虽然利用因果理论, 动作策略能够表现出良好的控制效果, 但是基于探索与试错的方法并不能在理论上保证控制性能的收敛. 目前还没有一套完善的框架能够评估因果强化学习的控制策略是否稳定, 这可能阻碍因果理论在强化学习控制系统中的研究发展.综上, 虽然因果强化学习展现出了具有潜力的应用前景, 但是目前研究成果相对较少, 研究的广度和深度都略显不足, 还存在以下待解决的问题.1) 探索归纳偏置对因果强化学习的影响. 归纳偏置指的是学习算法中假设的集合. 目前大多数因果迁移强化学习的研究都是基于独立因果机制和最小变化原则. 当不满足条件独立性假设或没有额外辅助信息的情况下, 如何选取归纳偏置, 使算法能够自动检测分布的变化并在有限时间内保证算法收敛是一个亟待解决的问题.2) 完善潜在因果变量的可识别性理论. 从因果表征的角度来说, 潜在因果变量的可识别性是因果变量提取和因果动态分析的理论基础. 虽然已有研究表明在非参数非平稳模型或者线性高斯平稳模型的假设下, 潜在因果变量可识别性可以得到保证[82], 但是当变量间因果关系发生变化或存在瞬时因果关系时, 如何基于观测数据恢复潜在因果变量是一个值得研究的问题.3) 构造因果强化学习框架的稳定性评估机制. 从策略学习的角度来说, 确保控制器的稳定是控制理论中首要考虑的问题. 虽然已有研究表明, 在反事实数据增强的场景下, Q学习可以收敛到最优值函数[81], 但是如何构造一套完整的因果强化学习框架以评估控制策略的稳定性是一个亟待解决的问题.解决上述问题并将因果强化学习推向更广阔、更现实的应用场景将是未来的研究方向, 具体来说包括以下几个方面.1) 合理利用观测数据和干预数据. 在因果强化学习中, 根据有无人为干预可以将数据分为无人为干预的观测数据和有人为干预的干预数据. 从数据分布上来看, 观测数据可能受控制策略、混杂因子和潜在因果变量的影响, 干预数据受人为控制的影响, 由这些原因导致的分布不匹配会造成选择偏倚的问题. 但是如果对选择偏倚进行适当的修正, 则可以提高数据利用率, 增加模型的可解释性. 因此在强化学习中合理地利用观测数据和干预数据, 采取适当的方式将知识分解为独立因果机制非常具有研究价值.2) 构建普适的基准测试环境. 在强化学习的应用背景下, 传统的评估指标不足以判断因果模型的好坏. 大多数研究成果都在不同的实验场景下验证算法性能, 无法横向判断模型结构的好坏, 也难以衡量因果模型和强化学习算法对控制性能的贡献程度. 因此构建一个普适的因果强化学习基准数据集, 验证和比较各类因果强化学习方法就显得至关重要.3) 将因果强化学习拓展到多智能体场景. 目前针对因果强化学习的研究都是针对单智能体. 在多智能体场景下, 联合状态空间和联合动作空间将随着智能体个数的增加呈指数性扩大, 极大地加重了计算负担. 考虑到使用恰当的结构化表征有利于提高系统控制性能, 如何在多智能体系统中构建可迁移的环境因果模型, 减轻计算负担并提高系统的可解释性, 将是非常有趣且可行的研究方向.