摘要

在 2016 年人工智能促进协会 (AI) 发表的讲话中，当时的协会主席呼吁 AI 为了鲁棒性而牺牲一些最优性 [1]。对于 AI，鲁棒性描述了系统在各种情况下保持其性能水平的能力 [5]。通过机器学习开发和验证高质量模型面临着特殊的挑战。一般公认的大多数人工智能需要鲁棒的原因包括：

• 训练和运行数据的不确定性；

• 输入来自不同训练集，但在统计上或语义上与训练群体一致；

• 训练群体之外的输入；

• 用有限的数据学习；

• 面对新颖的情况，需要不同于学习策略和分类器的开发方式；

• 对抗性行动。

此外，对于人类 AI 协作团队，人类必须适当地信任 AI 系统；因此，透明度也可以被视为鲁棒性问题。混合战争为人工智能的鲁棒性带来了额外的挑战。决策的不同性质和必要的决策支持扩大了所需模型的范围。在不同条件下开发的模型组合使用会影响可以对复合系统质量做出的统计声明。

如果我们需要鲁棒性，我们必须考虑它的度量。对与上述条件相关的鲁棒性研究的调查，提供了一系列可能的措施。北约联盟实施的混合战争需要了解所使用能力的鲁棒性。在本文中，我们从当前文献中调查了鲁棒性度量的前景。在这样做的过程中，我们有助于了解联盟内部各种模型和软件的组合。

1 引言

现代混合战争不仅包括传统战争，还包括政治和网络战争（以及其他），其越来越依赖人工智能 (AI) 在日益复杂的环境中执行任务。许多现代 AI 实现都是使用机器学习 (ML) 技术构建的，使用数据旨在来表示预期的情况。这意味着：

• 大多数当前的 AI 构建块都是为特定目的而构建的，虽然旨在泛化以支持现实世界的输入，但并不总是能够处理不熟悉的情况（输入）。它们是“黑盒”设计，可以实时或近乎实时地执行复杂的决策或环境解释（分类），但通常只能为已知输入产生可靠的答案。

• 如果提供以前从未见过的信息或通过人类可能察觉不到的攻击，人工智能构建块通常很容易被愚弄和混淆。

从本质上讲，我们正在处理的是一个易受影响的问题：现代 ML 解决方案，实际上还有其他 AI 解决方案，本质上很容易被他们不熟悉的数据所欺骗 [2] [3]。例如，这使得依赖于它们的指挥和控制 (C2) 决策树逻辑容易发生故障。当然，我们想知道如何通过确保利用人工智能的 C2 对故障具有鲁棒性来保护自己免受此类漏洞的影响。

总结：

• 许多机器学习方法天生就容易受到环境变化和攻击的影响；

• 因此，依赖机器学习（主要基于神经网络（NN））的人工智能系统本质上是脆弱的；

• 因此，必须使依赖人工智能的混合战争变得强大。

1.1 鲁棒性

ML 方法的训练和运行都基于以下几个方面：（1）输入数据，（2）内部结构，以及（3）学习算法。机器学习的脆弱性可能是由许多因素造成的。出于本文的目的，我们假设网络内部结构是静态的、足够强大且安全的，虽然还有许多其他因素，但我们考虑了两个主要方面：(a) 训练数据不佳，(b) 以前未使用的业务数据。因此，我们的重点是 ML 解决方案的输入数据。

天真地，我们假设 ML 方法（尤其是 NN）是使用高质量（“好”）输入数据训练的：在运行期间可能期望选择性表示AI 处理的输入范围。这个想法是，在运行过程中，人工智能可以为运行数据产生“正确”的决策，这些决策与训练它的数据相似。换句话说，人工智能必须能够进行插值，并且在某种程度上还可以推断其原理。

在最坏的情况下，糟糕的训练数据会导致训练出不符合目的的机器学习模型，或者在最好的情况下会导致生成“愚蠢”的模型；也就是说，只能做出具有高度不确定性的模糊决定。然而，在数据质量范围的另一端也存在危险，因为虽然“好的”训练数据可能会产生一个可以做出非常准确的决策的模型，但它可能只能使用窄范围的输入数据来做到这一点。当然，我们希望机器学习既能满足其性能要求，又能适应它最初没有训练过的新环境；即能够处理新颖事物场景。

因此，ML 的一个重要目标是构建一种泛化良好的能力。在狭窄的应用程序中，我们希望确保在环境样本上训练过的模型能够像宣传的那样在整个环境中工作。最终，我们希望人工智能面向复杂环境的处理能力，可针对所有现实，或者至少是人类感知的所有现实。从某种意义上说，这完全涵盖了所有情况，没有新的情况。如果我们观察牛顿宇宙并且拥有巨大内存量，那么所有情况都可以从当前数据中预测出来。但是，由于我们对宇宙建模的能力受到严重限制，因此可能会经常出现新颖情况。在不可能为复杂环境训练模型的前提下，当这些模型被引入现实世界时，模型应该能应对各种突发情况。

因此，表征模型的鲁棒性具有挑战性，需要考虑模型的不同方面的鲁棒性。虽然有许多可用的鲁棒性定义，但应区分用于传统软件鲁棒性的定义，例如 IEEE 24765[4] 的定义，以及与 AI 模型相关的定义。本文中使用 ISO CD22989 [5] 中提供的定义：

鲁棒性是“系统在任何情况下保持其性能水平的能力。鲁棒性属性表明系统有能力（或无能力）在新数据上具有与训练它的数据或典型运行数据相当的性能。”

1.1.1 鲁棒性度量

在定义了术语“鲁棒性”之后，由于本文的重点是鲁棒性度量，我们现在将定义术语“度量”，应用于鲁棒性。为了在编写定义时为我们的思考过程提供信息，确定度量鲁棒性可能具有的各种目的以及利益相关者可能是谁，是有用的。由于鲁棒性度量的目的和要求将取决于 ML 模型的生命周期阶段，因此我们分析了生命周期阶段的目的。

尽管许多 ML 模型将基于 NN，但我们的分析扩展到涵盖 ML 类型和架构的不同变体，并指出 ML 的主要变体是：NN、决策树和强化学习。

在 ML 模型设计和开发阶段，开发人员将试验模型设计并调整模型的架构和参数，以优化模型的性能。在这个阶段，鲁棒性度量的目的既可以是提供一种在进行这些更改时度量鲁棒性改进的方法，也可以描述模型如何表现鲁棒性。此外，不同模型的开发人员之间商定的度量标准将允许在模型设计之间进行可靠的比较。

在系统设计阶段，在选择现成的ML模型纳入整个系统时，度量鲁棒性将通过提供一种方法来比较一个模型与另一个模型的鲁棒性水平和性质，从而为系统设计者提供关于模型选择的决策信息。

在部署之前，安全从业人员将使用鲁棒性度量来为包含 ML 的系统的安全风险评估提供信息。具体来说，该度量将为 ML 模型的漏洞分析提供信息，若该模型具有低鲁棒性，则表示攻击者可以利用漏洞。

最后，在部署阶段，从单个 ML 组件的鲁棒性度量中得出的整体系统鲁棒性度量，将支持最终用户对系统输出或行为的信任和信心。

鉴于上述使用范围和相关利益者，出于本文的目的，我们将有意保留术语“度量”的宽泛定义。我们的定义超出了纯粹的测量或量化行为，包括我们如何描述或表征 ML 在任何特定环境中的鲁棒性。因此，我们将本文的其余部分基于以下定义：

鲁棒性度量是 ML 模型在其生命周期中可能面临的各种挑战的鲁棒性的度量或表征。特定度量的精确性质将取决于 ML 模型的类型、模型旨在完成的任务、以及模型所处生命周期的阶段。

1.2 方法论和论文结构

在考虑鲁棒性度量时，我们通过提出“面对……什么的鲁棒性？”这个问题开始分析。这生成了一个 ML 模型可能面临的情况列表，在这些情况下，它们的鲁棒性可能会受到挑战。我们称这些为“面对”条件。

• 训练和运行数据的不确定性；

• 不同于训练集的输入，但在统计上或语义上与训练群体一致；

• 训练群体之外的输入；

• 用有限的数据学习；

• 新颖的情况，不同于学习策略和分类器的开发方式；

• 对抗性行动；

我们的文献检索提供了许多关于鲁棒性的先前研究，对于每一项，我们都试图确定它们适合哪些类别。虽然这并不总是显而易见的，但它似乎代表了一种构建分析合乎逻辑的方式。因此，在以下段落中，我们尝试以这种方式对文献检索中的单个研究进行分类。

对于每个类别，我们描述了每个鲁棒性挑战的性质和细节，然后是用于度量鲁棒性的度量指标类型。尽管本文中对鲁棒性的审查不包括混合战争示例，但所讨论的内容适用于混合战争方法。

2 挑战和度量方法

2.1 训练和运行数据的不确定性

能够处理训练和运行数据中的不确定性对于 AI 来说至关重要，它代表了当前 ML 系统的关键组成部分，尤其是那些在军事领域等危急情况下使用的系统。

2.1.1 挑战

在 ML 中，目标是在给定的成本函数情况下，学习最适合训练数据的模型参数。然后，部署该模型以获取对新数据和未见过数据的预测。作为训练过程的结果，任何学习模型都带有不确定性，因为它的泛化能力必然基于归纳过程，即用数据生成过程的一般模型替换特定观察[6]。尽管研究界做出了许多努力，但没有任何现有的 ML 模型被证明是正确的，因为任何可能的实验都严重依赖于假设，因此当受到以前未见的输入数据影响时，每个当前的 ML 模型输出仍然是不确定的。

不确定性在统计领域有着悠久的历史，从一开始，它就经常被联系起来并被视为一个类似于标准概率和概率预测的概念。然而，在最近，由于当前对 ML 的炒作以及如今基于此类解决方案的系统正在控制我们的日常生活，研究界对此类概念的兴趣越来越大。这首先是出于安全要求，为此需要新的方法来应对。

在现有文献中讨论 ML 不确定性的不同方法中，可以根据所考虑的不确定性类型对它们进行聚类。当前的大多数作品都解决了偶然或认知不确定性。

2.1.1.1 偶然和认知不确定性

对 ML 中的不确定性进行建模的传统方法是应用概率论。这种概率建模通常处理单个概率分布，因此忽略了区分偶然不确定性和认知不确定性的重要性 [7] [8]。

偶然不确定性：我们可以将其称为统计不确定性，它源于实验结果可变性的随机性概念。简而言之，当提到偶然不确定性时，我们隐含地指的是即使存在任何其他信息源也无法减少的不确定性。让我们通过一个非常基本的例子来描述这一点：假设我们想要模拟抛硬币的概率结果。我们可以定义一个概率模型，该模型能够提供头部或尾部的概率，但不能提供保证的结果。这种不确定性定义了总不确定性的不能复归的部分。

认知不确定性：也称为系统不确定性，这是由无知/缺乏知识决定的总不确定性的一部分。这种不确定性是由于机器学习系统的认知状态造成的，并且可以通过附加信息来减少。例如，假设我们有一个 ML 模型学习一门新语言，并且给它一个新词，它应该猜测它是指头还是尾。智能体对正确答案的不确定性与预测抛硬币时一样不确定，但是通过在情况中包含额外信息（即提供同义词或解释单词的正确含义），我们可以消除任何不确定性在答案中。因此应该很清楚，与偶然性相反，认知不确定性定义了总不确定性的可还原部分。

既然我们已经定义了偶然不确定性和认知不确定性，我们将考虑有监督的 ML 算法以及这两种不同类型的不确定性如何在 ML 中表示。

在监督学习环境中，我们可以访问由 n 个元组 (xi,yi) 组成的训练集 D = {(x1,y1),…,(xn,yn)}，其中 xi （属于实例空间 X）是包含特征的第 i 个样本 (即，测量值），而 yi 是来自可能结果集 Y 的相关目标变量。

在这种情况下，ML 算法具有三个不确定性来源：

• 偶然不确定性：通常，X 和 Y 之间的相关性不是确定性的。因此，对于给定的输入 xi，我们可以有多个可能的结果。即使存在完整的信息，实际结果 yi 也存在不确定性。

• 模型不确定性：为解决给定问题而选择的模型可能远非最适合该任务的模型。这是由于模型的正确性和假设的正确性存在不确定性。

• 近似不确定性：通过优化过程学习的模型参数只是对真实假设的估计。这种估计是由于在学习过程中使用的数据缺乏保真度。

模型和近似不确定性都代表认知不确定性。

应该注意的是，对于 ML 算法，偶然不确定性和认知不确定性在很大程度上取决于环境。例如，通过允许学习过程改变最初定义的场景的可能性，可以减少偶然不确定性以支持认知不确定性；也就是说，原始环境中的偶然不确定性并没有改变，而是通过改变环境而改变（类似于在掷硬币的例子中加权硬币的一侧）。相反，如果我们考虑一个固定的初始场景，我们知道认知不确定性（即缺乏 ML 算法知识）取决于学习过程中使用的数据量（多少观察）。由于训练样本的数量趋于无穷大，机器学习系统能够完全降低逼近不确定性。

2.1.2 表示不确定性的机器学习方法

表示不确定性的不同 ML 方法具有不同的能力，可以根据以下内容进行聚类： (i) 表示不确定性的方式； (ii) 如果处理两种类型的不确定性（偶然性和认知性）中的两种或仅一种； (iii) 如果他们提供了任何可用于提供不确定性数量粗略估计的解决方案。

2.1.2.1 高斯过程

高斯过程 (GP) [9] 是一种用于监督学习的通用建模工具。它们可用于泛化多元随机变量的贝叶斯推理和函数推理。在分类的情况下，GP 具有离散的结果，不确定性定义的困难在于知识的表示，然后将其识别为模型的认知不确定性，就像在贝叶斯方法中一样。在回归的情况下，可以将偶然不确定性（即误差项的方差）与认知不确定性区分开来。

2.1.2.2 最大似然估计和Fisher信息数

在机器学习中，最大似然估计原理起着关键作用。事实上，如果一个模型可以“非常接近”似然函数的最大值，这意味着数据的微小变化可能对估计的影响有限。如果似然函数是平滑的，它可能是一个很好的指标，表明估计存在高度的不确定性，这可能是由于许多参数的配置具有相似的似然性。

在 ML 中，我们经常利用 Fisher 矩阵 [10] 来表示认知不确定性的数值 [11]。

2.1.2.3 生成模型

生成模型可用于量化认知不确定性。考虑到这些方法的概率性质，这些方法旨在模拟数据分布的密度，通过确定给定数据是否位于高密度或低密度区域，这些模型隐含地提供有关认知不确定性的信息。这一类别中最相关的工作是基于核密度估计或高斯混合，最近在深度自动编码器方面取得了一些进展[12]。

密度估计是处理异常和异常值检测方法的关键要素，后者只是一个分类问题，当样本位于低密度区域时，它被认为是分布之外的问题。这样的成果反而捕捉了偶然的不确定性。

一般来说，生成模型解决了一个非常具有挑战性的问题，需要大量数据才能正常工作，并且通常具有很高的不确定性。

2.1.2.4 深度神经网络

人工深度神经网络 (DNN) 本质上是一个概率分类器，我们可以将训练 DNN 的过程定义为执行最大似然推理。这导致模型能够生成给定输入数据的概率估计，但不能提供有关其概率置信度的详细信息：捕获了偶然的不确定性，而没有捕获认知。尽管如此，后者通常被称为模型参数的不确定性。在文献中，最近有一些作品 [13] [14] 试图通过将贝叶斯扩展引入 DNN 来模拟这种认知不确定性。

2.1.2.5 模型集成

模型集成（Model Ensembles ）模型类的常见示例是 bagging 或 boosting。这种方法非常受欢迎，因为它们可以通过产生一组预测而不是单个假设来显着提高点预测的准确性[15]。可以包含在此类中的最相关的工作是随机森林模型 [16]。此类别中的方法主要关注整体不确定性的任意部分。

2.1.2.6 Credal 集和分类器

Credal 集（Credal Sets）是一组概率分布，它是贝叶斯推理推广的基础，其中每个单一的先验分布都被一个候选先验的Credal 集所取代。作品 [17] [18] 研究如何定义Credal 集的不确定性以及相关表示，定义了存在于Credal 集中的两种类型的不确定性：由于随机性导致的“冲突”和“非特异性”。这些直接对应于任意和认知的不确定性；通常使用 Hartley 函数 [19] 作为标准不确定性度量； [20] 还定义了一种工具，可用于评估 ML 系统在面对训练和操作数据的不确定性时的鲁棒性。如果我们知道给定随机变量的未知值在给定的有限集中，Hartley 函数可用于评估不确定性。此外，已经通过类似 Hartley [80] 和广义 Hartley [81] 措施提出了对无限集的扩展。

2.2 与训练集不同但在统计上或语义上与训练群体一致的输入

在运行期间，分类器为输入数据的每个样本分配一个类标签。考虑到上述鲁棒性的定义，类内可变性，即分配到同一类的所有样本之间的可能变化，隐含地包含在用于学习分类器的训练数据集中。

2.2.1 对语义数据变体的鲁棒性

使用更具建设性的方法来定义鲁棒性有助于更好地模拟用户对分类器性能的期望。为此，如果分类器对于输入数据的所有有意义的变体是不变的，我们将暂时称其为鲁棒分类器。显然，所有有意义的变体的集合取决于应用场景，这通常很难描述。然而，对于许多分类问题，这种有意义的变体可以分为两类：（i）物理修改（例如，噪声添加、混合失真、裁剪、旋转、缩放）和(ii) 输入样本的语义修改（例如发音的不同方式）。图 1(1) 说明了手写数字分类示例的这两类可能变体。我们考虑书写数字“9”的不同变体。而（如图 1 所示）噪声添加 (a) 和混杂失真 (b) 可被视为属于第一类，第三类 (c) 在数字“9”上添加一个小弧线是有意义的（句法）变体，特别是不同国家的当地文化，它使符号（“九”）的语义保持不变。

图 1 (1) 手写数字 9 的可能数据变体，(2) 使用变分自动编码器 (VAE) 重建的数字 3、8、9 的空间，该编码器对来自 MNIST 语料库的各个数字进行训练，(3) 对应的潜在空间表示颜色编码数字类型。

2.2.1.1 物理鲁棒性

AI/ML 相对于第一类变体的鲁棒性，尚未得到令人满意的解决，但近年来已在相当程度上得到解决。在许多涉及对第一类变体的鲁棒性的出版物中，基础数据样本被建模为欧几里得向量空间中的向量。然后通过将范数有界向量添加到数据样本来对失真进行建模。这里，通常使用 Lebesguetype 范数（lp norms）（特别是 l1、l2 和 l∞）。在一篇被广泛引用的论文 [20] 中表明，这种 l2 范数有界的“对抗性攻击”可用于在基于神经网络的分类器中导致错误分类。随后，在对抗性攻击和相应的保护方法领域做了很多工作（本文稍后将进一步详细讨论）。结果表明，在许多情况下，攻击很难检测到，并且对于当时最先进的方法，可以绕过检测 [21]。显然，在这种情况下的鲁棒性需要保护免受对抗性攻击。在这种对抗性攻击环境中定义鲁棒性的许多方法可以在一个通用框架下捕获，如 [22] 所示。

2.2.1.2 语义鲁棒性

第二类，数据样本的语义上有意义的变体，导致了迄今为止很大程度上尚未解决的重大挑战。相应地，在[68]中，对所谓的感知扰动的鲁棒性被称为一个开放的研究问题。尽管现代基于 AI 的分类器，特别是深度神经网络，在众所周知的公共分类挑战上取得了破纪录的改进，但相比之下，它们的判别性自然不会导致分类结果的易解释性。近年来，整个研究分支都集中在可解释的 AI 上，即，研究通过给定分类器对映射到相同类别的样本集进行形式化甚至语义化的方法。

理解分类器语义的一个重要方法是将成功的判别分类器与生成模型结合起来。生成方法的优点是可以使用这些模型生成来自原始（样本）空间的示例。一种结合分类器和生成模型的成功方法是生成对抗网络（GAN）[24]。

也可以适用于分类的生成模型是（变分）自动编码器（VAE）[25]。自动编码器的基本思想是通过训练一个深度神经网络来学习原始数据的紧凑表示，该网络在两端具有全维（相对于原始数据）层，中间有一个稀疏的“瓶颈”层。图 1 (2) 和 (3) 说明了如何使用 VAE 来“理解”网络学习的类别：(2) 显示了一组具有代表性的重构，这些重构是由经过训练的 VAE 的生成部分获得的，用于对 MNIST 数据集的数字“3”、“8”和“9”进行分类。因此，在某种意义上，（2）总结了分类器准备识别的内容。在图 1 的右侧，（3）显示了从 VAE 的分类器分支获得的输入样本（即 MNIST 数字）的潜在空间表示。颜色对三个数字进行编码。潜在空间点和重构样本之间的对应关系如箭头所示。在蓝色中，绘制了将 9 的流形与其他数字分开的曲线，以指示学习的分类边界。考虑到这个例子，我们注意到上述变体 (c) 在重建部分 (2) 中没有很好地表示 - 考虑到语义库受到北美书写数字风格的偏见，这并不奇怪。因此，为了使分类器对变化 (c) 具有鲁棒性，必须应用额外的措施，例如增加或添加到训练数据中。

基于生成模型，Buzhinsky 等人[26] 提出了几个指标来衡量分类器对“自然”对抗样本的鲁棒性。为此，他们提出了一组在潜在空间中工作的六个性能指标，并随后显示了上述经典对抗鲁棒性和“潜在对抗鲁棒性”之间的联系，即对潜在空间扰动的鲁棒性。后者的有趣之处在于，几个示例的潜在空间扰动已被证明与原始样本空间中语义上有意义的变体相对应。

我们注意到经典的对抗鲁棒性已经可以用于获得关于小范数有界扰动的人工智能分类器的“认证”鲁棒性。然而，语义鲁棒性更难以形式化，并且与正确理解和建模目标类密切相关。为此，生成模型是一个重要的工具。诸如投影信念网络 (PBN) 等新概念，即基于前馈神经网络结构的分层生成模型，具有易于处理的似然函数的优势，在该领域非常有前景 [27]。

最近的一项工作 [75] 涉及一种称为复杂事件处理的 ML 形式，其中融合了来自多个传感器的具有空间和时间关系的多模态输入，以允许深度学习模型推断特定类型的事件，例如枪声或爆炸。此类事件被称为“复杂事件”。因此，鲁棒性的概念并不适用于模型本身，而是适用于机器学习功能所包含的整个组件系统。该研究声称，（a）人类逻辑在基于模式和序列预定义复杂事件中与（b）来自单个传感器的深度学习推断相结合，提高了系统对错误分类的鲁棒性。

2.3 训练群体之外的输入

在 [78]中，Ashmore 等人识别一组关于输入域及其子集的定义：I 输入域空间——模型可以接受的输入集； O，运行域空间——模型在预期运行域中使用时可能预期接收的一组输入； F，故障域空间——如果系统其他地方出现故障，模型可能接收到的一组输入； A，对抗域空间——模型在被对手攻击时可能收到的一组输入；其中 O、F 和 A 都是 I 的子集。这些定义不仅在考虑训练群体之外的输入（可以从 O、F 或 A 中得出）时很有用，而且在推理模型的输入时更普遍。

小的、像素空间的扰动，人类可能察觉不到，通常使用 lp 范数测量扰动幅度，是评估模型鲁棒性的合理方法（将在 2.6 节后面讨论）；特别是在对抗性攻击的可能性更高的混合战争领域。然而，在考虑评估模型的鲁棒性时，这些小扰动不一定适用于 Ashmore 的攻击域空间 (A) 之外。最近，独立的工作 [79] [80] 已经开始研究扰动模型的输入，使其远离经常讨论和研究的小扰动方法，而不是生成被认为与环境相关且人类可区分的扰动：这些扰动看起来会在输入上引入纯粹、模糊或朦胧等（这可以合理地代表来自 F 或 O 的输入）。

此外，在 [80] 中，作者建议对语义相关的图像引入有意义的扰动，但这些扰动可能尚未包含在模型训练集中；例如，例如，将一群鹅引入一个场景，在这个场景中，模型正在识别停车场中的车辆数量。虽然最后一类有意义的扰动显然是 Ashmore 的输入域空间 (I) 的一部分，但可以说，如果训练数据集不足，这些语义相关的扰动也可以被视为运行域空间 (O) 的一部分。有趣的是，[80] 还发现，当增加系统对小扰动的鲁棒性时，模型在处理语义上有意义的扰动时可能变得不那么鲁棒，因此考虑评估模型对这两种扰动类型的鲁棒性显然很重要。

为了评估模型对这种语义上有意义或环境相关的扰动的鲁棒程度，[80] 的作者提出了一种用于引入扰动的滴定方法，这样可以逐步测量在模型的准确性变得可疑之前引入扰动（例如，通过其置信度或已知基础事实的分类变化）。当考虑模型在预期的运行域空间中的应用时，这提供了一个进一步的度量标准来评估模型的鲁棒性。

2.4 用有限的数据学习

众所周知，使用深度学习需要大量数据来学习复杂的任务。如果训练数据太小，模型会过拟合，泛化能力很差。不幸的是，获取高质量的训练数据既困难又昂贵，因为它通常需要人工标记。例如，细粒度的 Cityscapes 数据集平均需要 1.5 小时来标记每个样本 [28]。此外，与为学术目的（概念验证、评估、基准测试等）开发的数据集不同，军事数据集还必须包含代表在现实世界可能发生但难以观察甚至预测的大量边缘情况的数据。如果没有这样的训练数据，在可能最重要的时候，或者在条件因敌对行动而意外改变的时候，军事模型的实际价值将是有限的。

军事应用的数据采集挑战是重大的，但也是必须解决的，以确保模型在现实世界中部署时是强大的。幸运的是，许多转移学习技术[29][30][31]已经被提出，这些技术利用了深度神经网络可以学习到可转移的一般特征，因此，可以被其他类似的任务重新使用[32]。预训练与微调相结合，通常用于利用少量/有限的数据进行学习，同时避免昂贵的大规模模型（如GPT-3）的再训练，这些模型可能需要专门的硬件来学习。其主要思想是：

1.将预训练的源模型的一部分复制到目标模型中；

2.向目标模型添加一个或多个随机初始化的（未训练的）层，使最后一层与目标的标签空间相匹配；

3.使用标记的目标域数据训练模型。

然而，这些技术不能用于军事数据来自特殊传感器（如激光雷达、红外、合成孔径雷达和高光谱）的情况，这些传感器很少有预先训练好的模型，或者过于敏感，甚至在盟友之间也不能共享。

无监督领域适应是另一种转移学习技术，虽然它在浅层学习中已经被研究了几十年，但最近在深度学习中也受到了很多关注[33]。使用这种技术，来自源域的标记训练数据可以用来训练一个使用目标域的无监督数据模型。该方法假设源域的标记数据成本低且容易获得。

从军事角度来看，这个想法很有吸引力，因为源数据有可能是合成的。也就是说，已经存在的模拟器或其他生成模型有可能被改编为不仅能生成完美标记的源数据，还能生成代表边缘情况的数据，否则很难甚至不可能获得这些数据。基于模拟的方法将完全消除人类的标记工作，否则可能会导致不正确、有偏见和不完整的数据集，这些数据集在训练时也会转移到模型中。使用无监督领域适应性来弥补 "模拟到真实"的差距（sim2real）正在积极进行[34][35]，使用各种技术，其中许多依赖于使用对抗性方法，如领域损失函数[36][37]和生成性对抗网络（GANs）[38][39]。

2.5 新情况，不同于学习策略和分类器的开发方式

为了在复杂环境中发挥作用，人工智能必须表现出对新事物的鲁棒性。DeepMind[41]的演示表明，ML可以被用来开发策略，从而在僵硬的游戏中实现超人的发挥。围棋“Go”这个游戏提供了一个复杂的环境，超过了我们对游戏可能状态的存储极限，因此提供了前面讨论的关于我们对牛顿宇宙建模的极限的情况。然而，如果改变了游戏规则，生成的代理就会变得很脆弱或者完全失败。在[42]中，这种类型的结果在一个更简单的环境中被证明，实验阐明不同的变化如何影响代理的鲁棒性。

但新颖性不仅仅是数据点不包含在 ML 训练集中的情况。为了将新颖性的研究结合起来，[43] 提出了一个描述新颖性的框架。图 2 说明了人们如何以一种可以同时衡量新颖性和代理反应的方式看待新颖性。这种新颖性观点的关键在于，可以将新颖性考虑到与世界有关的方面以及与代理人的经验有关的方面。同样，对代理任务有影响的新颖性，对鲁棒性的影响不同于对任务没有影响的新颖性。这也是 Chao [42] 中证明的一个发现。

图 2. 考虑新颖性的框架。

2.5.1 DARPA SAIL-ON 计划

DARPA SAIL-ON 计划 [40] 中采用的一种基于游戏的新颖性实验方法。 DARPA SAIL-ON 计划假设智能体具有以下四个要素：

• 一种性能要素，它使用已知的专业知识通过感知、推理、规划、控制机制来完成任务并实现目标（例如，寻找和收集具有所需特征的水下物体）;

• 一个监控元素，将观察结果与期望值进行比较，以检测环境（例如，声纳不可靠、不熟悉的捕食者）和代理自身行为（例如，车辆向右转向）中的异常情况；

• 一种诊断要素，可定位专业问题，生成有关原因（例如，非反射表面、横流、未对准的螺旋桨）、评估备选方案并从中进行选择；

• 修复被认为是造成性能问题的专业知识并纠正它们的维修要素（例如，更新的声纳方程、电流敏感控制器或新的螺旋桨模型）。

正如上文关于新颖性的介绍部分所述，这项研究的大部分开始于认识到 DeepMind 用于解决围棋、国际象棋、将棋和星际争霸游戏的方法对游戏规则的变化并不鲁棒。一个例子是南加州大学 (USC) 开发并通过 GitHub 发布的 GNOME 框架。

NIWC Pacific 与 USC 合作开发了一个版本，英国 Dstl 使用 GNOME 框架开发了“Hunting of the Plark”游戏。这将允许对受过训练以玩该游戏的代理的新颖性影响进行实验，这是图灵研究所研究小组的重点。计划对使用 ML 开发的决策支持工具进行进一步实验，我们不仅可以处理模拟情况，还可以与美国海军进行现场实验。

2.5.2 新颖性检测

个体在不知道世界形势发生变化的情况下对新颖事物有很强的抵抗能力。这很可能是由于新颖事物对正在执行的任务并不重要，或者至少是在敏感度较低的领域变化。然而，处理新颖事物的一个策略是至少检测到一个代理处于一个新颖的情况，即使该代理不知道如何在新颖的环境中工作，除了退出或提醒其他人注意这种情况。

代理的基本问题是：环境是否发生了变化，或者正在分析的数据是否只是在以前分布的一个尾部？目前，对于大部分的ML来说，仅仅认识到数据不在样本范围内可能就足够了。至少能认识到其自身局限性的ML在许多情况下是一个进步。在这方面，经典的对抗性例子演示经常被提起：在这些实验中，代理往往对他们的错误答案非常自信[44]。

在规划系统中，识别可能基于对任务进度的动态评估。如果规划无效，一种可能是世界以一种模型未反映的方式发生了变化。早期检测可能会防止灾难性结果，但这并不能保证。事实上，人们可以设想无法恢复的情景（在黑洞的事件视界上转弯是一个极端的例子）。

2.5.4对新颖性的鲁棒响应

[45] 将提供鲁棒响应的任务定义如下：

• 假定：使用专业知识在一类环境情况下运行的代理架构；

• 假定：支持此类环境中可接受的代理性能专业知识；

• 假定：在突然的、未通知的更改环境中，经验有限会导致性能降低；

• 发现：当环境发生变化时，哪些修改后的专业知识将支持可接受的性能。

对新颖事物的响应类型与正在执行的任务类型有关。在分类器中，系统可能需要调整其模型，不仅允许改变其提供的答案，还允许解释这种变化意味着什么。例如，想象一个感知代理，其可确定机器人是否存在障碍物。相机系统的改变，例如镜头上的苍蝇附着可能会为系统创造一个新局面。如果系统能够适应并确定不存在障碍，则需要对情况进行解释以证明答案的合理性。

图 3. SAIL-ON 新颖性指标假设。注意程序中的 TA2 代理是那些对环境中的新颖事物做出反应的代理。

对于规划系统，新颖性可能表现为采用新的行动或发现行动的成本与以前不同；目标可能会发生巨大变化。规划系统可能不得不调整他们的知识，重新计算以前的任务，利用经验来改变他们的计算。上面图 3 中的假设说明了测量环境。在环境中出现变化之前，学习和运行可能会进行一段时间。对特定变化还不够鲁棒的代理性能会下降，必须找到一种方法来检测新事物的发生，确定发生了什么变化并在运行中对其进行解释。

2.6 对抗性行动

在过去的几十年里，已经证明基于深度学习技术的机器学习模型可以在各种任务中达到甚至超越人类水平的表现。另一方面，机器学习模型通常容易受到输入扰动的影响，并且很容易被愚弄以产生不正确的输出 [53] [54]。这些类型的操作被称为对抗性攻击，机器学习模型对抗这些攻击的性能被测量为对抗鲁棒性 [55]。在两个不同方面研究了对抗鲁棒性。第一个方面，研究人员试图找到一种产生对抗性攻击的方法，以最大程度地降低模型的鲁棒性 [56] [57] [58] [59] [48]。第二方面，研究人员试图找到更好的训练或防御方法，使网络架构对这种对抗性攻击更加鲁棒[60] [61] [62] [63] [64]。在本节中，我们调查了对抗性攻击和防御方法，并从当前文献中定义了对抗鲁棒性的指标和测量方法。

2.6.1 对抗性攻击

[54] 中针对机器学习系统 M 和输入样本 C（称为干净样本）定义了对抗性攻击，如下所示：

“假设样本 C 被机器学习系统正确分类，即 M(C) = y。可以构建一个对抗性样本 A，它在感知上与 C 无法区分，但分类错误，即 M(A) ≠ y。”

基于此定义，对抗性攻击的目的是修改模型输入以导致不正确的模型输出，使其无法被人类观察者区分。不可区分性标准对可应用于输入的扰动有一些限制，这在文献中称为 lp 范数，即

其中 ϵ 是最大允许扰动。最常用的范数是 l2 和 l∞。

考虑到这一限制，提出了几种方法来生成对抗性样本 [65] [55] [48]。生成对抗样本主要遵循两种不同的方法，即黑盒和白盒。在黑盒方法中，用户不了解模型，只能访问给定输入的预测概率或预测类别。另一方面，假设模型及其参数在白盒方法中是完全已知的[47]。

白盒攻击在欺骗模型方面比黑盒攻击更有效，并且在文献 [56] [57] [58] [48] 中使用不同的方法进行了广泛的研究。白盒攻击主要是基于梯度的攻击方法：它们通常构造一个损失函数，可以导致扰动攻击能力的提高和扰动幅度的降低，然后通过梯度优化损失函数以生成对抗样本[66]。使用损失函数的梯度来确定对抗性扰动，可以像快速梯度符号法（FGSM）[65]那样在一个步骤中进行，用于快速生成对抗性样本。为了提高效果并减少扰动，在基于迭代梯度的攻击中，不是在梯度方向上采取单一步骤，而是采取多个较小的步骤[54][48]。

对抗性攻击也可以作为训练的一部分。最近的一些工作[46]背景是一个对等网络，其中每个对等体都有一份神经网络模型的副本，以创建一个分布式的学习环境，这并不依赖于中央协调节点的存在。这样的机器学习架构非常适用于有多个伙伴的军事联盟场景。最初，每个对等体拥有总训练数据集的一个子集，随着模型训练的进行，模型参数在每次训练迭代时都在对等体之间共享。

本实验基于 Fashion-MNIST 数据集，并非试图提高点对点 ML 的鲁棒性，而是测量和优化中毒技术在导致对等体错误分类方面的有效性。中毒效果的衡量标准是，就训练迭代次数而言，恶意对等体能够可靠地毒化良性对等体的速度有多快。然而，我们相信相同的指标可以用来推断 ML 对这种中毒的鲁棒性：实现错误分类所需的迭代次数越多，鲁棒性就越高。

2.6.2 对抗性防御

已经提出了一些方法来保证在特定条件下对范数有界的对抗性攻击的鲁棒性。例如，Wong 和 Kolter [67] 使用对抗性多面体的概念为基于 ReLU 的分类器提出了可证明的防御措施。此外，[68] 中提出了一种有效且完整的分段线性神经网络鲁棒性验证器。在该论文中，提出了一种算法，该算法基于最大 (l∞-) 范数在对抗性误差上产生经过验证的界限。

获得强大的深度神经网络的最成功的方法之一是通过对抗训练。对抗性训练的主要动机是将攻击和防御都纳入一个共同的理论框架，自然地封装了大多数先前关于对抗性样本的工作 [55]。在这种方法中，不是直接将原始数据集中的样本输入到训练中，而是允许对抗性攻击首先扰动输入，然后将扰动的样本输入到训练中。对抗性训练以不同的方式得到增强，例如改变攻击过程、损失函数或模型架构 [69] [50]。

对抗性训练的性能很大程度上取决于生成增强训练数据集时使用的损失函数和对抗性攻击方法，并且由于需要生成对抗性样本，与干净训练相比需要更长的时间。在 [73] 中，已经证明，使用具有早期停止的经典对抗训练可以更容易地提高最先进的对抗训练方法的性能。这表明我们对对抗性训练的理解是有限的。在 [74] 中分析了对抗性训练对鲁棒性的影响，他们得出结论，在使用（随机）梯度下降的干净训练过程中，神经网络将在所有特征中积累一些与任何自然输入，但极易受到（密集）对抗性扰动的影响。在对抗训练期间，这种密集的混合物被“纯化”以使模型更加鲁棒。

2.6.2.1 训练期间随机噪声的隐式生成建模提高了对抗鲁棒性

最近开展的工作 [70] 专门研究了上述方法。事实上，这项工作旨在通过将随机噪声引入训练输入并使用随机梯度下降 (SGD) 对其进行优化，同时最小化训练数据的总体成本函数，从而使深度神经网络对对抗性输入更加鲁棒。效果是在开始时随机初始化的输入噪声在训练过程中逐渐被学习。结果，噪声近似地模拟了输入分布，以有效地最大化给定输入的类标签的可能性。

作者 [70] 评估了他们在 MNIST、CIFAR10 和 CIFAR100 等分类任务上的方法，并表明以这种方式训练的模型更具对抗性。发现噪声和干净图像的组合方式对精度有重大影响，乘法比加法获得更高的精度。鲁棒性的直接度量没有发展，而是随着扰动水平的增加，鲁棒性被量化为精度函数。

2.6.2.2 基于离散化的对抗性攻击解决方案

继对抗性训练的主题之后，[72] 表明，图像分类深度神经网络对对抗性输入的鲁棒性可以通过输入空间和模型参数空间的离散化来提高，同时精度损失最小。在使用 MNIST、CIFAR10、CIFAR100 和 ImageNet 数据集的实验中，输入空间的离散化涉及将像素强度的数量从 256 (28) 减少到 4 (22)，参数空间的离散化涉及使用低精度权重训练模型以及诸如二元神经网络 (BNN) 之类的激活。此外，结合这两种离散化技术极大地提高了模型的鲁棒性。与更昂贵的对抗性训练过程（即使用对抗性示例训练模型）相比，这种组合方案可以被视为提高鲁棒性的另一种方法。在每个实验中，通过比较分类的准确性来衡量鲁棒性，同时对抗性扰动 (ε) 逐渐增加。实际上，这项工作中鲁棒性的度量似乎是在保持给定精度的同时可以容忍的扰动程度。

2.6.2.3 减轻神经网络中的对抗性样本

在最后一个示例中，进行了一项相对简单的工作 [71]。对图像分类器的输入进行预处理是通过将输入馈入高斯核来实现的，其效果相当于平滑低通滤波器，其中平滑程度取决于内核的标准偏差参数。该实验是使用 MNIST 数据集进行的，并测量了平滑和各种对抗性噪声水平的不同组合的准确度。结果表明，为了优化给定水平的对抗性噪声的准确性，存在一个最佳的平滑水平。在这种情况下，用于鲁棒性的度量是针对给定数量的对抗性噪声的成功攻击的百分比。该度量允许直接比较使用和不使用平滑的性能。

2.6.3 测量对抗鲁棒性

对抗性鲁棒性可以衡量为对抗性攻击[47]扰动输入的模型准确性。由于评估取决于应用的对抗性攻击，因此很难衡量模型的实际对抗鲁棒性。

文献中的大多数作品通过使用在其训练阶段使用的相同或相似的对抗性攻击方法和损失函数，来展示其方法的对抗性鲁棒性。在[48]中已经表明，通过改变损失函数和生成对抗样本的方法，可以实现比原始论文中报道的更低的对抗鲁棒性。实际上，[48] 中指出，在 49 个案例中，有 13 个案例的鲁棒性变化大于 10%，在 8 个案例中大于 30%。

在 [49] 中，通过将几个深度神经网络的性能与人类观察者进行不同类型的操作进行比较，进行了类似的评估。在这项工作中，已经表明，只有在训练阶段知道所应用的操作时，深度神经网络才能达到人类水平的性能。对于未知的操作，深度神经网络的性能会急剧下降。此外，文献中提出的许多防御策略都被更强大的对手打破了[48] [50]。因此，应仔细比较在不同方法下获得的鲁棒性，以确保评估尽可能有效[47]。

对抗鲁棒性被报告为从扰动集中获取的最坏情况输入的模型精度。除了准确性之外，还可以测量两种类型的性能指标来评估模型的鲁棒性。第一个指标是对抗频率，它衡量模型多久无法保持稳健[51]。第二个是对抗性严重性，用于衡量从原始输入到对抗性样本的预期最小距离 [51] [52]，即模型被愚弄的难易程度。事实上，引用[51]：

“频率和严重性捕获了不同的鲁棒性行为。神经网络可能具有高对抗频率但对抗严重程度低，这表明大多数对抗样本距离原始点有非常小的距离。相反，神经网络可能具有较低的对抗频率但较高的对抗严重性，这表明它通常是鲁棒的，但偶尔会严重不鲁棒。频率通常是更重要的指标，因为具有低对抗频率的神经网络在大多数情况下都是鲁棒的。实际上，对抗性频率对应于用于衡量鲁棒性的对抗性样本的准确性。严重性可用于区分具有相似对抗频率的神经网络。”

3 结束语

混合战争表明可能有许多系统和许多模型，因此如果假设人工智能将在混合战争系统的集合中使用，那么多种错误来源具有破坏人工智能在军事领域应用的巨大潜力。

因此，上述当前技术的标准和调查都与了解将 AI 和 ML 应用于混合军事领域的潜在弱点相关，因此在涉及与 AI 和 ML 的鲁棒性有关的考虑时，显然需要确保未来进行广泛的评估。很明显，有一个重要的考虑领域和可用的度量方法。然而，正如之前在第 2 节中提出的，这些度量方法适用于不同的利益相关者、不同的模型和潜在的不同任务。

因此，当前的问题是如何为特定模型确定和找到正确的度量方法，以获得混合战争系统所需的置信度。 IST-169 打算推进这项初步调查来做到这一点。我们相信，开发各种类型的鲁棒性及其适用于不同类型 AI 阶段的图形表示，将有助于全面了解 AI 鲁棒性格局。这将加强并采取更严格的方法对人工智能应用进行开发。

成为VIP会员查看完整内容

摘要