《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

人工智能（AI）的最新进展引起了人们对人工智能系统需要被人类用户理解的关注。可解释人工智能（XAI）文献旨在通过向用户提供有关人工智能系统行为的必要信息来增强人类的理解和人类-人工智能团队的表现。同时，人为因素文献长期以来一直在解决有助于人类表现的重要考虑因素，包括如何确定人类的信息需求、人类负荷以及人类对自主系统的信任。从人类因素的文献中，提出了可解释人工智能的态势感知框架（SAFE-AI），这是一个关于人工智能系统行为解释的发展和评估的三级框架。提出的XAI级别是基于人类用户的信息需求，这些需求可以用人因文献中的态势感知（SA）级别框架来确定。基于我们的XAI等级框架，我们还提出了一种评估XAI系统有效性的方法。进一步详细说明了在确定解释的内容和频率时对人为负荷的考虑，以及可用于评估人为负荷的指标。最后，讨论了通过解释适当校准用户对人工智能系统信任的重要性，以及XAI的其他与信任有关的考虑，还详细介绍了可用于评估用户对这些系统信任的指标。

随着最近人工智能文献中对可解释人工智能（XAI）的关注，定义XAI系统应该传达哪些信息以及如何衡量其有效性变得越来越重要。Gunning和Aha（2019）将XAI定义为 "能够向人类用户解释其原理的人工智能系统，描述其优势和劣势，并传达对其未来行为方式的理解"。我们采用了XAI的这一定义，并将解释定义为支持人类推断人工智能系统上述细节的必要信息，包括关于其输入、模型和输出的信息。开发XAI技术的动机经常被说成是需要在日益复杂的人工智能系统中实现透明化（Fox等人，2017；Lipton，2016），以及需要在日益不透明的系统中获得用户信任（Borgo等人，2018；Fox等人，2017；Lipton，2016）。提高人工智能系统的透明度和说明人类对这些系统的信任都有助于提高人类-人工智能团队的绩效；因此，支持人类-人工智能团队的绩效是XAI的主要目标之一。事实上，以前的研究已经证明了智能体的透明度对人类-AI团队中人类队友的任务表现的积极影响（Chen等人，2017，2018；Stowers等人，2016）。一些文献认为，存在性能-可解释性的交换，即更多可解释的人工智能系统会以某种方式牺牲算法性能（Gunning & Aha，2019；Lipton，2016）。然而，如果缺乏系统的可解释性抑制了团队的整体表现，那么改进算法性能所提供的好处可能会丧失。例如，如果一个基于医学机器学习的成像系统能够在对某些医疗问题进行分类时取得更大的准确性，但它的方式使人类医生更难注意到其判断中的错误，医生-AI团队的绩效可能会受到整体影响。因此，我们认为优化人类-AI团队的表现，通过对系统行为的解释来实现，是XAI的主要目标。

在人因方面存在着丰富的文献，探讨了人类与自动化系统互动的场景，以及在任务执行过程中影响人类表现的各种因素。态势感知（SA）的概念，已经在人为因素领域和人类-自动化团队的背景下进行了研究（Chen等人，2014；Endsley，1995），定义了人类在任何场景下操作的信息需求（Endsley，1995）。XAI系统，作为提供人工智能行为信息的系统，可以为人类用户的SA子集做出贡献，该子集与人工智能行为有关。通过XAI系统提供的支持人工智能的信息，可以提高人类-人工智能团队的绩效；然而，除了XAI支持的人工智能子集之外，整体的人工智能也是支持团队绩效的必要条件，但并不完全是充分条件（Endsley，1995）。

人为因素的文献讨论了其他的因素，这些因素对于人与AI团队的表现同样是必要的，并且也与XAI系统有关。首先，虽然SA定义了人类需要的信息，但工作负荷的考虑影响了如何以及何时提供这些信息（Parasuraman等人，2008）。其次，用户对自动化系统的信任的重要性已经在之前的文献中得到了明确的探讨（Lee & See, 2004; Schaefer等人, 2014）。重点不是增加用户的信任，这通常被作为XAI的动机（Borgo等人，2018；Fox等人，2017；Krarup等人，2019），而是适当地校准信任，导致人工智能系统的适当使用（Chen等人，2014；Ososky等人，2014；Schaefer等人，2014）。

除了讨论SA、负荷和信任的概念以及对这些考虑因素的相关设计建议之外，文献还将这些概念操作化，提供了评估的方法和指标（Parasuraman等人，2008）。正如SA支持但不等同于性能一样，XAI系统提供的高质量解释支持但不等同于SA、适当的人类工作负荷或对AI系统的充分信任。然而，根据与这些因素相关的方法和指标来评估XAI系统，有助于了解所提供的解释是否实现了提高人与AI团队绩效的最终目标。除了团队绩效之外，将SA、工作负荷和信任作为XAI的中间目标来衡量，可以明确绩效评估中存在的潜在混淆因素。

虽然之前已经提出了一些评估XAI系统不同方面的指标（Doshi-Velez和Kim，2017；Hoffman、Miller等人，2018；Hoffman、Mueller等人，2018；Lage等人，2019），但XAI文献目前缺乏一套全面的评估解释质量的合适指标。虽然可能无法明确和独立地定义一个解释的质量，但在许多情况下，一个解释只有在它有助于实现SA、适当的信任和适当的工作负荷等中间目标以及提高绩效的最终目标时才是 "好 "的。换句话说，在许多情况下，SA、信任和工作负荷以及团队绩效可以作为代理，表明XAI系统是否实现了它的预期目标，因为XAI系统的目标往往与这些概念有关。因此，XAI从业者可以利用现有的人类因素指标来评估他们所提出的技术。

在本文中，我们讨论了与XAI相关的人类因素文献（包括现有的XAI技术），并根据人类因素界的发现提出了一套XAI系统的设计考虑和评估指标。我们首先更详细地讨论了人的因素中的SA概念，并提出了可解释人工智能的态势感知框架（SAFE-AI），其中包括XAI的级别，定义了哪些关于人工智能算法和过程的信息应该由XAI系统来支持；这些级别与Endsley（1995）提出的SA级别紧密对应。我们进一步强调了一套现有的XAI技术如何适合我们的框架，以及用于评估现有技术的指标如何映射到SA的评估。SAFE-AI旨在为定义XAI系统的需求提供一个以人为本的结构化方法，为XAI技术的开发提供指导，并为XAI系统的评估提供指导。

SAFE-AI可以用来定义XAI系统的信息要求，但是信息要求本身并不能决定XAI系统的整个设计。同样重要的是，要考虑在交互过程中的任何给定点向用户展示多少信息，以及展示信息的频率，以便用户能够实际处理这些信息。这些考虑与人类的工作负荷有关。此外，系统可能有必要向人类用户提供额外的信息，以便适当地校准人类对系统的信任，这可能会影响到适当的使用和团队表现。因此，在本文中，我们还讨论了工作负荷和信任的人为因素概念，XAI中考虑过这些概念的现有工作，以及如何将与每个概念相关的指标应用于XAI系统的评估。理想情况下，SAFE-AI可以被应用于确定一套初始的交互信息要求，而信任和工作负荷的考虑可以被用来完善这套初始要求，并充实与XAI系统如何被整合到真实世界环境中有关的额外细节。这项工作的初步版本可以在Sanneman和Shah（2020）中找到。本文通过扩展与SAFE-AI框架相关的XAI技术的文献回顾，以及包括对工作负荷和信任及其与XAI系统的关系的额外讨论，对初步版本进行了扩展。

本文的其余部分组织如下：在第2节中，我们讨论了态势感知，包括来自人类因素的相关文献，我们基于态势感知的XAI框架，来自XAI文献的相关例子，以及一个激励性的例子来澄清对框架的讨论。在第3节中，我们扩展了人类因素中人类工作负荷的概念，以及XAI的相关考虑和衡量标准。在第4节中，我们讨论了XAI的信任相关考虑。在第5节中，我们根据人类因素文献的结果和发现，列举了未来可能的方向，在第6节中，我们总结了本文。