推荐！《情报分析中的人机协作：建立对机器学习系统的信任》最新报告

新兴技术与安全中心（CETaS）是一个政策研究中心，位于英国国家数据科学和人工智能研究所--艾伦图灵研究所。该中心的使命是通过对新兴技术问题进行基于证据的跨学科研究，为英国安全政策提供信息。

本报告介绍了CETaS研究项目的结果，该项目研究了在英国国家安全背景下使用机器学习（ML）进行情报分析。研究结果是基于对国家安全从业人员、政策制定者、学者和法律专家的深入访谈和焦点小组。

该研究的目的是了解在情报分析背景下使用ML所产生的技术和政策考虑。具体而言，该研究探讨了如何校准用户对机器生成的见解的适当信任程度，以及将ML能力纳入分析员决策过程的最佳做法。

从事国家安全工作的情报分析员在处理大量数据方面面临着重大挑战，这些数据可能会对当前和未来的事件产生关键的见解。数据的持续全球扩张既带来了风险（错过了关键信息），也带来了机会（获得更深入的洞察力）。ML的使用提供了真正的潜力，可以同时减少这种风险和追求这种机会。

在部署ML以支持人类决策过程时，有一些重要的考虑，包括(i)解释和理解模型为何以及如何运作的挑战，以及(ii)如果ML能力被不适当地使用，对社会和公民造成伤害的风险。人们认识到，在国家安全等高风险背景下广泛采用ML之前，需要对其安全和有效使用进行明确的指导。

ML的可解释性是多方面的，既可以指模型性能的技术属性，如不同阈值的预期精度和召回率（有时被描述为 "全局解释"）；也可以指模型在得出特定预测时考虑到的具体因素（有时被描述为 "局部解释"）。本研究试图研究情报分析员对全局和局部模型解释的要求和优先权。

该研究涉及检查情报分析员的决策过程和分析工作流程，以了解在将ML能力纳入这一过程时必须考虑到的技术、行为和政策因素。该报告的主要结论和建议如下：

1.ML在从大量不同的数据中定性、发现和分流信息方面最有价值。这在短期内为情报分析中的ML提供了最好的投资回报，因为它解决了情报界的一些最迫切的需求。这些应用也为使用ML提供了更可控的风险，因为关键的决定（如那些直接与个人有关的决定）仍然由分析员做出。

2.分析员如何对待ML模型的输出是高度特定的背景。分析师对机器生成的信息所赋予的意义和信心是由当前的环境（决策的紧迫性、行动的优先性、以及后续决策对资源和结果的感知影响）决定的。因此，识别和理解分析员可能使用ML模型的不同背景，应该是开发、测试和验证ML模型过程的核心。

3.许多ML系统在技术上缺乏可解释性，这一点已得到广泛认可。可解释人工智能 "是数据科学研究中一个不断增长的子学科，技术方法正在获得牵引力，以帮助解释复杂的ML模型的行为。虽然这些技术的使用可能仍然是数据科学家和ML工程师感兴趣的，但数学可解释性方法在改善分析师对模型的行为和性能的现实世界的理解方面可能作用有限。

4.增加分析师对ML能力的信任涉及到对ML输出的信任和对整个系统的信任，而ML只是其中的一部分。分析师不会仅仅为了理解一个ML模型的输出而做出反应和努力，还要考虑其他因素，如他们对模型先前性能的经验，模型是否已被正式批准用于操作，以及分析师正在执行的任务的性质。

5.ML应该从一开始就被设计成与情报分析员的工具集和工作流程相结合。对ML的最有效应用应来自于对分析员当前工作环境的理解。这需要更深入地了解人类因素、可用性要求和决策心理，并将其纳入开发模型（数据科学）和与模型互动的工具（软件工程）的过程。

6.ML模型的技术信息类型和数量应该是针对具体环境的，是针对用户的和可交互的。提供给分析员的信息应提高模型的透明度和可解释性，并应包括两部分：强制性信息（特定背景）和由分析者选择的自定义信息（特定用户）。这两类信息的表述应该是明确的，并使分析者容易穿越不同层次的解释（例如通过使用点击式界面）。

7.解释的复杂性应该由问题的复杂性决定。如果一个问题在认知上对人来说是简单的，那么对该问题的ML解决方案的解释就是不必要的，也无助于决策。然而，对于人类不能轻易完成的更复杂的任务来说，模型提供一些推理，说明它是如何得出某个输出的，这一点更为重要。也会有这样的情况：局部解释既无帮助也不合适。

8.在ML模型和相关的图形用户界面（GUI）的原型设计和测试中应包括分析师。这应该引起适当的解释水平，以支持分析员的决定。调整模型的性能（例如，设定可接受的假阳性/假阴性阈值的限制）应该由分析员群体的不同代表来完成。分析师必须参与ML模型的测试，这将增加他们的整体信心和采用。这些测试的结果应该与部署类似ML系统的伙伴组织进行常规分享。

9.同一模型的不同用途可能需要不同的阈值，这是分析员信心的关键，需要不断审查。在某些情况下，分析员可以容忍较高的假阳性率（例如，在高优先级的行动中，错过重要的东西可能是灾难性的），而在其他情况下，则不能接受。由于潜在的重要信息有可能 "漏网"，假阴性一般在情报分析中更成问题。

10.讨论和解释ML模型的语言应该在整个国家安全界实现标准化。诸如分类器的置信度等数值应按照公认的标准，如PHIA（情报评估专业负责人）的概率标尺来表述。在可能的情况下，这种信息应以语言和数字的形式呈现。

11.数据科学应作为一种支持服务提供给分析员。例如，一个由数据科学家组成的小团队，专门帮助正在使用ML模型的分析员解释结果和调查关注的问题。对分析师的密切支持应提高他们对ML模型的行为和性能的理解水平。这将减少不适当使用ML模型的风险，同时提高分析员群体使用ML模型的整体能力和意识。

12.有效采用ML需要一个系统级的方法。ML模型的设计应考虑其对现有政策和实践的影响，包括任何必要的法律授权，分析师对模型性能的反馈的重要性，以及考虑部署和维护ML模型的整个生命周期的成本。组织政策和流程可能需要更新以考虑这些额外的要求。

13.应提供额外的培训和学习材料，使那些使用或监督使用ML系统的人能够获得最低水平的数据科学和ML知识。了解精确性、召回率和准确性等技术属性的能力被认为是分析人员应具备的最低水平的知识，以确保他们充分了解ML模型的性能，并因此了解其效用。

将ML嵌入情报分析管道

在短期内，ML被认为在情报分析中最具潜力的、最常被引用的阶段是信息过滤和优先级，以使分析更有效，或者正如一位受访者所描述的那样，“降低信噪比”。一位受访者所总结的:“我不排除ML情报分析工具作为任何链条的一部分，但它更多的是后续步骤，例如动能行动或建议某物在特定位置或警察逮捕和敲门。对于一个ML工具来说，直接采取这种行动是不合适的。你需要类似的证据。我很乐意使用和试用ML输出作为过滤和收集决策等过程的一部分，但这离实际结果还很远。”

图1概述了典型的情报分析管道和相应的系统功能，并说明了受访者认为ML可以提供最大价值的地方。一般来说，“收集”和“处理”阶段被确定为管道中ML将为分析师提供最大效用的阶段。当我们沿着决策和报告(最终由分析过程产生)的管道向下移动时，ML所增加的感知价值会减少。

图1 情报分析管道概述和整合机器学习的优先领域

回到“干草堆中的针”的比喻，受访者认为ML在帮助生产“干草堆”方面是有用的，因此分析员不需要审查“整个领域”，但分析员不希望ML决定“针”是什么。换句话说，一名受访者表示，支持复杂机器学习的能力可能还太遥远，因此重点是采购更快的马匹，而不是汽车。从这个意义上说，“快马”指的是能够处理更多数据并自动识别分析员感兴趣的信息的系统，例如关键字搜索。理想情况下，模型将生成包含相关数据的输出，其中包含一些外围信息或“干草”，以使分析员确信没有遗漏任何内容。分析人员仍然对基于分析数据而产生的任何决策负责。

此外，受访者建议区分ML工具和采用“队友”角色的ML系统是很重要的。例如，如果系统仅限于批量数据的分类或过滤，则该系统仅仅是执行狭窄任务的工具。一个ML“队友”会做得更多，参与:“……通过帮助恢复记忆和帮助分析员回忆‘大局’来共同解决问题。”一个ML“队友”也可以通过做笔记、在分析员身边演进、在分析员疲劳时“支持他们”或帮助他们生成支撑分析的数据。”

这样的系统还可以学习和适应用户需要多少信息以及用户想在什么时候收到警报，或者了解情况的合法性和交战规则。一位行为科学家引用了之前的研究，该研究发现，在给定的饱和点之前，情报分析员在他们的认知负荷峰值时表现最佳，因此机器“队友”可能会根据分析员的认知负荷峰值来调整自己。另一位人为因素工程师表示，未来的系统可能能够倾听队友之间的对话，以及分析员建立的链接，从而指出人类分析员可能看不到的链接。研究团队没有发现这种系统目前正在使用或计划在不久的将来使用的证据，但如果现有的ML工具现在被接受和信任，那么用户在未来更有可能接受更复杂的系统和“队友”。

最后，同样重要的是要注意，“人机合作”和“自动决策”之间的二元区别可能是对ML决策支持工具在实践中如何部署的过度简化。在未来，人类分析师和机器学习之间的三种不同类型的交互是可以想象的，并值得进一步考虑，其中包括一个机器学习模型: