摘要

对于许多人工智能系统的应用领域来说，多目标连续决策问题是常见的。由于这些系统越来越多地被用于与人打交道或做出对人有影响的决策，因此它们的推理对终端用户和利益相关者来说是很重要的，以促进信任和有效的人-Agent协作。然而，即使在使用马尔科夫决策过程（MDP）等白盒决策模型时，最终用户也很难理解解决顺序决策问题背后的推理。这种理解性的挑战是由于解决长视距问题存在爆炸式的潜在策略组合。多目标优化方面使问题进一步复杂化，因为不同的目标可能发生冲突，需要权衡推理。这些复杂的问题给终端用户带来了障碍，使他们无法知道Agent是否为特定环境做出了正确的决定，并且可能禁止他们在Agent错误的情况下进行干预。本论文的目标是开发一个可解释的框架，使做出顺序决策的Agent能够向最终用户传达其目标和行为的缘由。

我们提出了一个用于MDP的可解释规划框架，特别是支持具有多个优化目标的问题域。我们提出以结果为导向的对比性解释，其中对Agent策略的论证是以其对任务目标的预期后果为基础的，放在所选择的可行方案的背景下，以展示Agent的优化和权衡推理。我们的建模框架支持奖励分解，并增强了MDP表示法，以使奖励或成本函数的组成部分以领域级概念和语义为基础，从而促进解释的生成。我们的解释生成方法计算策略层面的对比衬托，描述Agent决策中的拐点，即对分解的任务目标进行优化和权衡推理。我们通过将我们的可解释规划框架应用于三个规划问题领域来证明它的适用性：基于航路点的导航、无人机任务规划和诊所调度。

我们设计并进行了人类受试者实验，以根据可衡量的任务表现来评估解释的有效性。我们把实验中用户的任务设计为：评估Agent的规划决策，以确定它们是否是给定问题背景下的最佳决策。我们的实验结果表明，我们提出的以结果为导向的对比性解释方法明显提高了用户正确评估Agent的规划决策能力，以及用户对其评估的信心。

最后，我们研究了面向后果的对比性解释范式的用户指导方法的可行性。我们提出了一个理论框架和方法，将"为什么不"的行为问题表述为规划问题上的状态-动作约束和线性时间逻辑约束，并得出满意的策略，以解释被询问的行为对后续决策和任务目标的全部影响。

第一章简介

由于人工智能推理的算法复杂性和所使用的信息不为用户所知，因此，由带有人工智能（AI）组件的系统做出的自动决策对最终用户来说往往是不透明的，难以理解。特别是顺序决策过程，在这个过程中，随着时间的推移连续采取多个依赖性行动，由于可能策略的组合爆炸，特别是涉及到不确定性下的推理时，对终端用户的理解构成了重大挑战。随着人工智能系统越来越多地被用于许多领域，与人们一起工作或做出影响人们的决定，这些系统必须使其推理能够被最终用户和利益相关者理解。理解系统的目标和行为，相信系统为他们的任务做出了正确的决定，或者知道他们什么时候没有做出正确的决定，这对于让人们信任并有效地使用这些人工智能系统或与之合作至关重要。本论文的目标是开发一个可解释性框架，使做出顺序决策的Agent能够将其目标和行为的理由传达给终端用户。

对于许多顺序决策或规划的应用领域，经常有多种实现目标的方法，这些方法可能在一些重要的品质上有所不同，如执行时间和各种性能和成本的衡量标准。这样的顺序决策问题涉及到特定领域数量属性的优化[78]。对于这类应用领域的终端用户或利益相关者来说，一个重要的可理解性类型[61]是：为什么Agent的决策是最优的？这个问题有几个方面。正在使用的顺序决策框架、领域模型、任务目标（即目标和优化目标）以及解决问题的算法都在选择最优决策方面起作用。因此，问题的多个方面可以得到解释。在本论文中，我们特别关注领域模型和任务目标方面，以马尔可夫决策过程（MDP）作为顺序决策框架。我们研究了与算法无关的方法，向用户解释为什么MDP规划Agent的策略是最优的，与Agent的决策模型有关。也就是说，我们的方法是根据Agent的MDP模型来解释他们的最优策略，与解决MDP的具体算法无关。我们的目的是向用户解释产生规划解决方案的推理，这些解决方案对他们来说可能是不明显的，基于Agent的决策模型所做的，而不是基础规划算法如何实现的。

我们认为，对比性解释对于回答为什么一项计划或策略是最优的至关重要，因为最优性从根本上说是一种比较性属性。对比性解释的思想源于这样一种社会现象：当人们要求对某一事件，即事实（"为什么会发生P？"）进行解释时，他们往往要求相对于某种对比情况，即箔（"为什么会发生P而不是Q？"）进行解释[69, 70]。

在可解释的人工智能规划中，现有的工作采用对比性解释来进行推理调和（意味着帮助用户的推理过程更好地理解规划者的决策）[18]，主要集中在单个行动层面的对比性衬托。这些工作通常旨在回答 "为什么这个行动在这个计划中？"和 "为什么不是这个其他行动？"的问题。[36]. 然而，为了回答 "为什么这个策略是最优的？"的问题，我们认为在单个行动层面的对比性衬托是不够的。对于用户来说，要理解为什么一个策略是最优的，知道在某个状态下选择另一个行动会有一个较低的值（即Q(s, a0 )值，或其分解成分，对于在状态s下的另一个行动a0）可能是不够的。较低的值可能是没有向用户解释的后续状态和行动的结果。此外，有许多可能的后续状态和行动的集合，Agent可以选择，这将导致不同的策略值。如果解释将对比性的衬托作为单独的行动，这些替代性的决定就没有得到解决。相反，我们认为应该探索导致较低策略值的行动组合，以便为用户提供更多关于一个策略为什么是最优的洞察力。关键的挑战是如何从一个指数级的大空间中找出适当的行动组合作为对比性的衬托。

在这篇论文中，我们研究了什么是构成策略最优的有效对比性解释，以及如何自动生成这种解释的问题。我们专注于解释马尔科夫决策过程规划，对其而言，即使规划模型是一个白盒，决策的长跨度顺序性和概率性仍然使Agent的推理难以被用户理解。我们的工作特别有动力针对涉及多个奖励或成本目标的问题域，因为它们反映了规划的许多现实应用[78]。问题的多目标优化性质增加了用户需要理解的Agent推理的复杂性。

我们在本论文中研究的解释的主要目标是使用户能够评估规划Agent的决定对于用户的目标和偏好来说是否是最优的，这些目标和偏好可能与Agent的目标和偏好不同。我们关注这一目标的原因有两个方面。首先，在为规划问题设计奖励或成本函数时，将Agent和用户的目标和偏好统一起来是一个困难的问题[37, 59]。特别是，当规划目标有多个组成部分时，可能会发生错位。能够帮助用户发现这种（错误的）排列的解释可能是有影响的。第二，为解释建立一个以任务为导向的目标，可以为衡量拟议的解释方法的有效性提供一个更客观的评价方法。

我们研究如何使用对比性解释作为一种机制来描述Agent的规划目标如何将其决策引向某种策略而不是其他策略。与可解释人工智能文献中常用的对比性解释的定义不同，我们不关注因果差异条件或与不同情况相关的属性的非因果差异。相反，我们的主要想法是关注Agent决策中的拐点，使其选择某种策略而不是其他一些合理的选择。也就是说，我们关注的是Agent改变其优化轨迹以平衡竞争性任务目标的点。为了从一个指数级的大空间中找出一套可管理的信息对比衬托--在行动组合层面上，我们利用规划问题的多目标性质来解释。通过奖励分解，我们确定了一个帕累托有效策略的子集作为候选的对比性衬托。我们的对比性解释方法的主要思想是描述奖励或成本值的组成部分如何在帕累托效率子空间中驱动优化决策的拐点，以及如何进行权衡以调和竞争的任务目标。我们对这种类型的对比性解释的论点是双重的。首先，它忠实于规划算法的基本数学方法，即计算多目标奖励或成本函数的最优价值函数。其次，它支持本论文中所激励的解释的目标，即帮助用户认识到Agent的目标和偏好与他们的目标和偏好之间的一致或不一致。

1.1 论文声明

本论文的论述是：

我们可以通过面向结果的对比性解释来提高马尔科夫决策过程（MDP）规划Agent对终端用户的透明度和可理解性，即他们如何推理寻找最优策略。我们提出的方法允许用户从不同序列决策对各种任务目标的影响以及竞争目标之间的权衡角度来理解规划原理。我们提出的解释机制使最终用户能够评估基于规划的Agent的目标和他们自己的目标之间的一致性，并有可能从用户的角度解决Agent的意外决定。

接下来，我们阐述一下论文声明。

这篇论文的重点是针对最终用户的马尔科夫决策过程（MDP）规划的推理协调问题（即帮助用户的推理过程更好地理解规划者的决定[18]），特别是对于涉及多个优化目标的问题领域。也就是说，我们的目标是产生解释，说明为什么一个Agent的策略是关于任务目标和先验偏好的最佳选择。我们将我们的方法设计为算法无关和基于模型。也就是说，我们的方法是根据MDP模型来解释Agent的最优策略，与解决MDP的具体算法无关。我们提出了以结果为导向的对比性解释，其中对策略的论证是以其对任务目标的预期后果为基础的，放在选定的可行替代方案的背景下，以证明Agent的优化和权衡推理。

利用奖励分解，我们的方法通过对奖励或成本函数的各个组成部分的价值函数的约束进行重新规划，计算出一小套替代策略作为对比性的衬托，这与问题的任务目标相对应。价值约束的设置是为了解决帕累托前沿的拐点上的替代策略，这些拐点表明Agent的权衡决定，以调和竞争的任务目标。我们的方法制定了解释，描述了在行动组合层面上不同的对比性衬托如何影响与Agent策略相比的任务目标。

本论文表明，使用以结果为导向的对比性解释可以提高终端用户对规划原理的理解，其衡量标准是他们评估Agent的决策是否与用户自己的目标和对任务的偏好相一致的能力，这可能与Agent的目标和偏好不同[59]。我们在本论文中提出，这种解释为终端用户提供了关于Agent决策的可操作性的见解。也就是说，用户可以相信Agent已经做出了正确的决定，或者他们可以确定Agent有可能出错的地方并进行相应的干预。

此外，我们研究了对我们方法的扩展，允许用户直接查询Agent策略中的意外决定。我们探索了一种用户引导的、以结果为导向的对比性解释方法，以 "为什么不 "查询的形式使用用户的输入来引导搜索对用户的具体问题有参考价值的对比性衬托。为此，我们提出了一个理论框架和方法，将 "Why-Not "查询制定为规划问题上的状态-行动约束和线性时间逻辑（LTL）约束，并解决满足的策略，以解释被查询行为对后续决策和任务目标的全部影响。使用这个解释框架的重要考虑因素是：对于满足被查询的时间模式的对比性箔，计算出的策略对于原始MDP问题中的状态抽象来说可能是非马尔可夫的。必须承认Agent原始推理中的马尔科夫奖励假设和用于生成用户查询的对比性衬托的非马尔科夫方法之间的差异。尽管如此，我们认为，允许对比性衬托来挑战Agent的正式规划框架中的假设，对于用户理解和评估他们对Agent的任务所期望的最优性标准是有参考价值的。这项调查是一个概念验证。它的主要目标是探索在我们面向结果的对比性解释范式中超越独白的可行性，并纳入复杂的用户查询，以确定更相关的对比性衬托，从而实现更好的推理协调。

1.2 贡献

在这篇论文中，我们做出了以下贡献：

1.我们为马尔科夫决策过程（MDP）规划设计了一种算法无关的、基于模型的可解释规划方法[94]。我们的解释目标是提供推理调节，说明为什么一个策略对于任务目标和规划Agent的先验偏好来说是最优的。我们提出了一种方法来产生面向结果的对比性解释。我们的方法由两部分组成：

(a) 一个支持奖励分解的建模框架，并增强了MDP表示法，使奖励或成本函数的组成部分在领域级概念和语义中有了基础，以促进解释的生成。

(b) 一种计算策略层面的对比衬托的方法，它描述了Agent在分解任务目标的优化和权衡推理方面的决策拐点。我们的方法通过对分解的任务目标的价值函数进行硬性和软性约束的重新规划来计算对比性箔。我们将约束性规划问题表述为混合整数线性规划（MILP）问题。特别是，我们制定MILP问题来解决满足价值函数的硬约束的确定性策略[28]。我们使用惩罚方法[23]和非线性惩罚函数的分片线性近似[25]在MILP表述中用于软约束。

2.我们通过将我们的方法应用于三个规划问题领域来证明我们提出的可解释规划框架的适用性：基于航点的室内机器人导航、无人驾驶飞行器（UAV）任务规划和门诊调度。我们展示了每个问题域如何在我们的可解释规划表示中建模，并讨论了我们的方法对不同问题实例产生的解释的例子。

3.我们设计并进行了一个人体实验，以评估基于可测量的任务表现的解释的有效性。特别是，我们将用户的任务设计为：评估Agent的规划决策，以确定它们是否是给定问题背景下的最佳决策。我们的实验结果表明，我们提出的以后果为导向的对比性解释方法明显提高了用户正确评估Agent的规划决策的能力，以及用户对他们的评估的信心。

4.我们研究了面向后果的对比性解释范式的用户指导方法的可行性。提出了一个理论框架和方法，将 "为什么不 "的行为问题表述为规划问题上的状态-动作约束和线性时间逻辑（LTL）约束，并解决满足的策略，以解释被询问的行为对后续决策和任务目标的全部影响。为了解决具有LTL约束的MDP，我们利用现有的问题制定方法[82]来构建产品MDP，其中包含了由LTL属性生成的确定性拉宾自动机（DRA），而产品MDP的奖励或成本函数是根据DRA的接受条件来定义。对于原始MDP问题中的状态抽象，通过这种方法计算的对比性箔的策略可能是非马尔科夫的。