现实世界中的连续决策任务通常是复杂的，需要在多个通常相互矛盾的目标之间进行权衡。尽管如此，强化学习和决策理论规划方面的大多数研究要么只假设有一个目标，要么假设多个目标可以通过简单的线性组合得到充分的处理。这些方法可能会过度简化基本问题，从而产生次优的结果。本文作为多目标问题上的应用实用指南，主要针对已经熟悉单目标强化学习和规划方法并希望在研究中采用多目标视角的研究人员，以及在实践中遇到多目标决策问题的从业人员。它确定了可能影响所需解决方案的性质因素，并通过实例说明了这些因素如何影响复杂问题的多目标决策系统的设计。

关键词：多目标决策、多目标强化学习、多目标规划、多目标多Agent系统

1 引言

在大多数现实世界的决策问题中，我们关心的是不止一个方面。例如，如果我们有一个带水电站的水库，我们可能会关心能源生产的最大化，同时最小化灌溉不足量，以及最小化洪涝泛滥[19, 122, 133]。在医疗方面，我们可能希望最大限度地提高治疗的有效性，同时尽量减少各种副作用[69, 77, 86]。换句话说，大多数现实世界的决策问题本质上是多目标的。

虽然大多数决策问题实际上有多个目标，但大多数处理需要与连续决策问题互动的智能体算法都集中在优化单一目标上[163]。然而，为了处理现实世界的多个目标，创建决策理论智能体的一个常见方法是将所有重要的方面结合在一起，形成一个单一的、标量的、加法的奖励函数。这通常涉及到为环境中可能发生的事件分配数字奖励或惩罚的迭代过程。例如，在水库环境中，我们可以对洪灾的发生进行大的惩罚，对每个时间步骤的电力输出进行正的奖励，对每个没有满足灌溉需求的时间步骤进行负奖励。然后，开启单目标规划或学习智能体，观察所产生的策略，如果行为不令人满意，则重新设计奖励函数。然后重复这个反复的过程，直到行为被设计者接受。我们认为这种工作流程是有问题的，原因有几个，我们将逐一详细讨论：（a）它是一个半盲目的手工过程，（b）它使应该做出决定的人无法做出明智的权衡，给工程师带来了理解手头决策问题的过度负担，（c）它破坏了决策过程的可解释性，以及（d）它不能处理用户和人类决策者可能实际拥有的所有类型的偏好。最后，（e）目标之间的偏好可能会随着时间的推移而改变，当这种情况发生时，一个单一目标的智能体将不得不被重新训练或更新。

首先（a），如果我们通过迭代过程设计一个标量奖励函数，直到达到可接受的行为，我们会尝试多个奖励函数，每个都是实际目标的标度化。然而，我们并没有系统地检查所有可能的奖励函数。换句话说，我们可能达到了可接受行为的最小阈值，但我们只观察了所有可能的标度化中的一个子集。因此，尽管可能找到一个可接受的解决方案，但它可能离最佳效用有大的距离--如果我们能系统地检查所有可能的解决方案，我们会得到最佳方案。这就自动把我们带到了第二点（b）。由于奖励函数是需要事先设计好的，我们只能猜测这可能对策略产生的影响。例如，当试图在电力生产系统中训练一个智能体时，我们可能希望将平均功率输出提高一倍。然而，即使目标在奖励函数中是线性加权的，也不是简单地将与功率输出方面的性能相关的奖励增加一倍，因为奖励权重和实际目标结果之间的关系很可能是非线性的[184]。另一方面，如果我们能够检查所有可能的最佳策略--以及它们在目标之间提供不同的权衡值--我们就可以以一种充分了解结果的方式来决定，而不是先验地对标度进行有根据的猜测。这种有根据的猜测也是把决策权放在了不属于它的地方：工程师。当工程师创建一个标度奖励函数时，他们同时对实际决策者（如水库中的政府）的偏好做出假设，并对标度奖励函数的变化所导致的行为变化做出猜测。这不是一个可以留给人工智能工程师的责任--至少在具有重大意义的决策问题上不是。

我们还注意到，尝试不同奖励函数的迭代过程在样本复杂度和计算时间方面可能会有很大的、但存在隐藏的成本。然而，这通常不会在最后的研究论文中报告。因此，我们认为，从一开始就使用多目标方法，实际上可以节省计算时间，并可能具有较低的整体样本复杂度。这一点尤其重要，因为多目标算法可以利用需要产生多个策略的事实，以明确减少计算时间[140]和样本复杂度[4]。

标量奖励函数的另一个问题是缺乏（事后的）可解释性（c）。如果我们问 "为什么机器人碰撞并摧毁了花瓶？"，我们可以尝试输入一个替代的决定，比如从花瓶边转过来。一个具有单一全面目标的智能体，如果学习了一个标量值函数，那么，比如说，会告诉我们这个其他策略的价值减少了3.451，这没有提供什么启示。

相反，如果智能体可以告诉我们，在财产损失的目标中，损坏花瓶的概率将下降到几乎为0，但碰到家里的狗的概率增加了0.5%（一个不同的目标），这将使我们深入了解出了什么问题。我们也可能因为不同的原因而产生分歧：我们可能认为智能体高估了与狗相撞的风险，这将是该目标的价值估计中的一个错误。我们也可能认为，撞到狗的可能性增加0.5%是如此之小，以至于可以接受--特别是如果机器人撞到狗可能会给狗带来不便，但不会对它造成实际危险--如果机器人可以明确避免破坏花瓶。这将是我们分配给不同结果的效用函数中的一个错误。换句话说，不采取明确的多目标方法会使我们失去可能需要的基本信息，以评估或理解智能体。

此外（d），并非所有的人类偏好都可以由标量加法奖励函数来处理[144]。当用户的偏好应该用非线性而非线性效用函数来建模时，在许多强化学习框架中，先验的标度化在数学上是不可能的，因为标度化会破坏奖励函数的可加性。对于某些领域来说，这可能仍然是可以接受的，因为由此产生的优化损失可能不会产生重大影响。然而，在伦理或道德问题变得明显的重要领域，单目标方法需要明确地将这些因素与其他目标（如经济结果）结合在一起，而这种方式可能是许多人无法接受的[191]。同样，对于我们希望确保多个参与者获得公平或公正的结果的场景，设计单一目标的奖励可能是困难的，甚至是不可能的[157, 177]。

最后（e），众所周知，人类会不时地改变他们的想法。因此，不同目标之间的权衡偏好很可能随着时间的推移而改变。一个明确的多目标系统可以训练智能体能够处理这种偏好的变化，从而避免在这种变化发生时需要发现一个新的策略。这增加了多目标决策智能体的适用性，因为智能体不需要从操作中取出来进行更新，它们可以简单地切换策略以匹配新的用户偏好。我们注意到，这种类型的变化与单目标和多目标问题中都可能出现的问题的非稳态动态不同；这里的多目标马尔可夫决策过程（第3节）本身是稳态的，但外部偏好发生了变化。

通过比较将RL应用于湿式离合器接合的两项不同的研究，可以深入了解单目标和多目标方法之间的差异[17, 187]。任务是控制湿式离合器中的活塞，以便通过最小化接合时间和扭矩损失，产生一个快速和平稳的接合。最初的研究使用了带有折扣的标量奖励，它隐含了所需行为的两个方面，并取得了可接受的结果[187]。然而，随后的研究考察了由几个不同的效用函数和这些函数的参数化所产生的策略，并证明其中一些策略优于最初工作中报告的策略[17]。

因此，采取明确的多目标方法来规划和学习可能是在决策问题上部署人工智能的关键。为了提供进一步的动力，以及展示在对多目标问题进行建模时可能出现的一些困难，我们将在第2节中提供此类多目标决策问题的例子。然后，我们将对多目标问题进行形式化处理（第3节），并推荐一种系统地处理多目标决策问题的方法，在整个过程中把用户的效用放在前面和中心位置（第4节）。在第5节中，我们概述了从确定多目标决策问题到在实践中部署政策的过程中应该考虑哪些因素。我们描述了这些因素对这个过程和解决方案概念的影响。然后，我们描述了多目标决策问题和其他已知决策问题之间的关系（第6节），并简要调查了算法方法（第7节）和用于评估这些算法产生的解决方案的指标（第8节）。为了帮助研究人员开始研究这个领域，我们在第9节中包括了一个多目标决策问题的工作实例，一个有多个目标的水管理问题，此外，我们还增加了一个Jupyter笔记本[74]，其中有这些工作实例作为补充材料。最后，我们在第10节中总结了文章并讨论了开放性的研究挑战。

我们写这篇文章的目的是提供一个多目标决策的介绍，并指导读者开始建立和解决此类决策问题。本文与现有的旨在提供方法和理论的全面概述的文献调查不同，它旨在成为从业人员和研究人员的指南，强调在将多目标智能体应用于实际问题时需要考虑和解决的问题。作为后续阅读，我们推荐Roijers、Vamplew、Whiteson和Dazeley[144]提供的更多技术调查。

成为VIP会员查看完整内容