分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

检测分布外 (OOD) 样本对于确保机器学习系统的安全性至关重要，并且已塑造了 OOD 检测领域。同时，其他一些问题也与 OOD 检测密切相关，包括异常检测 (AD)、新颖性检测 (ND)、开放集识别 (OSR) 和异常点检测 (OD)。为了统一这些问题，提出了一种广义的 OOD 检测框架，对这五个问题进行了分类。然而，像 CLIP 这样的视语言模型 (VLMs) 显著改变了范式，模糊了这些领域之间的界限，再次令研究人员感到困惑。在本综述中，我们首先介绍了广义的 OOD 检测 v2，概括了 AD、ND、OSR、OOD 检测和 OD 在 VLM 时代的演变。我们的框架揭示了随着某些领域的停滞和整合，主要的挑战已变成 OOD 检测和 AD。此外，我们还强调了定义、问题设置和基准测试方面的显著变化；因此，我们对 OOD 检测的方法进行了全面回顾，包括讨论其他相关任务以澄清它们与 OOD 检测的关系。最后，我们探讨了新兴的大型视语言模型 (LVLM) 时代的进展，如 GPT-4V。我们以未解决的挑战和未来的方向结束本综述。

https://www.zhuanzhi.ai/paper/5ef13c97bd36a70b354004f8445cebc9

一个可靠的视觉识别系统不仅应准确预测已知情境，还应识别并拒绝未知样本【1】【2】【3】【4】。在自动驾驶等关键应用中，系统必须在遇到训练期间未见过的场景或物体时发出警报并将控制权交还给驾驶员。然而，大多数现有的机器学习模型基于封闭世界假设【5】【6】，即测试数据被假设为与训练数据来自相同分布，即内部分布 (ID)。因此，开发能够检测分布外 (OOD) 样本的分类器是现实应用中的一个关键挑战。这正是 OOD 检测领域研究的重点。

虽然 OOD 检测主要关注语义分布变化，但其他几个任务也有类似的目标和动机，包括异常点检测 (OD)【7】【8】【9】【10】、异常检测 (AD)【11】【12】【13】【14】、新颖性检测 (ND)【15】【16】【17】【18】和开放集识别 (OSR)【19】【20】【21】。这些子课题在具体定义上的细微差异导致了领域内的混淆，从而导致在这些课题中提出了类似的方法。为了解决这一问题，提出了广义 OOD 检测框架【22】。广义 OOD 检测框架的分类如图 1 所示。该框架将这些任务归类为统一分类下的特定案例或子任务。这一框架提供了明确的定义，并加深了对各个领域的理解。

近年来，以 CLIP 为代表的视语言模型 (VLMs) 的出现迅速加速了计算机视觉领域的研究。这改变了识别领域的范式，使得在各种领域中零样本【23】或少样本学习【24】【25】成为可能。VLMs 对上述五个问题 (OD、AD、ND、OSR 和 OOD 检测) 产生了显著影响，VLMs 的应用已成为一个备受关注的研究领域【26】【27】【28】【29】。然而，与这显著进展并存的是，VLMs 的出现导致范式的转变，模糊了五个问题之间的界限。由于难以明确理解这些任务之间的区别和相互关系，各个领域的研究社区在确定在 VLM 时代应追求的最佳方向时面临重大挑战。

在本综述中，我们引入了一个新的统一框架，称为广义 OOD 检测 v2，该框架扩展了先前的广义 OOD 检测框架，并总结了这五个问题在 VLM 时代的演变。为此，我们系统地回顾了 VLMs 在这五个问题领域的应用，追踪它们的发展历程，并总结每个问题的演化轨迹。重要的是，我们的框架揭示了范式转变导致某些领域停滞或整合，VLM 时代的主要挑战变成了 AD 和 OOD 检测，这对于每个社区来说都是一个重要发现。除了跨领域的演变，我们还详细阐述了 OOD 检测定义的重要变化以及问题设置和基准测试，并与相关任务的对比进行讨论。然后，我们对 VLM 时代的 OOD 检测及相关任务的方法进行了全面回顾，旨在澄清它们的相似性和差异，并激发未来在 OOD 检测方面的研究。

最后，我们介绍了这些问题在新兴的大型视语言模型 (LVLM) 时代的演变，如 GPT-4V【30】或 LLaVA【31】（也称为大型多模态模型或多模态大型语言模型【32】）。我们总结了每个演变问题的定义、迄今为止的发现和未来的挑战。

总而言之，在本综述论文中，我们对研究社区做出了三项贡献：

VLM 时代的统一框架：我们系统地回顾了 VLM 时代 OD、AD、ND、OSR 和 OOD 检测这五个紧密相关主题的发展，并提供了更新的统一框架，称为广义 OOD 检测 v2。我们的框架揭示了范式转变导致一些领域停滞或整合，主要的挑战是 AD 和 OOD 检测。我们希望这些观察结果能突显 VLM 时代的主要挑战，并促进各个社区之间的合作努力。

VLM 时代 OOD 检测的综合综述：虽然近年来已发表了关于 OD、AD、ND、OSR 和 OOD 检测方法的综合综述【11】【12】【13】【14】【20】【22】【50】【51】，但本综述是第一个全面概述 VLM 时代 OOD 检测方法的综述。通过与其他相关任务的联系，我们旨在为读者提供全面了解这些问题的发展和相互关系，特别是在 OOD 检测的背景下。

LVLM 时代的演变介绍：我们进一步介绍了每个问题在大型视语言模型时代的演变。尽管这些领域还处于初期阶段，本综述提供了对每个问题的深入介绍，旨在促进该领域的未来发展。

未来研究方向：我们引导读者关注在 VLM 和 LVLM 时代推进该领域所需的未来工作。我们在本综述的最后讨论了未解决的挑战和未来研究的机会。

本文的内容安排如下。在第 2 节中，我们通过总结 VLM 时代五个相关领域的演变，介绍了广义 OOD 检测的新版本。然后在第 3 节概述了已演变并保持活跃的两个关键问题（OOD 检测和 AD），第 4 节（基于 CLIP 的 OOD 检测）和第 5 节（基于 CLIP 的 AD）详细介绍了现有方法。在第 6 节，我们介绍了 LVLM 时代早期的 OOD 检测和 AD 进展。第 7 节和第 8 节讨论了潜在的挑战和未来方向。最后，我们在第 9 节总结全文。

2 广义 OOD 检测 V2

在本节中，我们介绍了一个新的统一框架，称为广义 OOD 检测 v2，概述了 VLM 时代五个相关领域的演变。首先，我们在2.1节中回顾了之前的广义 OOD 检测框架。接下来，我们介绍每个问题的演变。

2.1 背景：广义 OOD 检测 V1

首先简要回顾之前的广义 OOD 检测，该框架涵盖了五个相关的子课题：异常检测 (AD)、新颖性检测 (ND)、开放集识别 (OSR)、分布外 (OOD) 检测和异常点检测 (OD)。这些子课题在某种意义上是相似的，因为它们都定义了一定的内部分布 (ID)，共同目标是检测在开放世界假设下的分布外样本。以前，这些子课题在内部分布 (ID) 和 OOD 数据的具体定义和性质上存在细微差异。为了提供明确的定义，提出了广义 OOD 检测框架【22】。广义 OOD 检测的分类如图 1 所示。它基于以下四个基础：(1) 检测的分布变化：任务关注检测协变量变化（例如，不同领域的 OOD 样本）或语义变化（例如，不同语义的 OOD 样本）。(2) 内部分布 (ID) 数据类型：内部分布 (ID) 数据包含单一类或多类。(3) 任务是否需要 ID 分类：有些任务需要对 ID 数据进行分类，而有些则不需要。(4) 传导学习 vs. 归纳学习：传导任务需要所有观察（包括 ID 和 OOD），而归纳任务遵循常见的训练-测试方案。根据上述分类，这五个问题可以如图 1 所示进行明确分类：异常检测分为处理协变量变化的感知异常检测和处理语义变化的语义异常检测。新颖性检测与语义异常检测归为同一类。当处理需要 ID 分类的多类场景时，开放集识别和分布外检测都包含在这一类别中。OSR 和 OOD 检测的主要区别在于基准测试设置【22】【55】（见 2.2 (c) 节）。异常点检测属于与其他任务不同的类别，因为这个问题是传导性的（即它可以访问所有观察）。有关每个任务的详细定义，请参阅之前的广义 OOD 检测综述论文【22】。

2.2 各个问题在 VLM 时代的演变

我们回顾了每个问题在 VLM 时代的演变情况。为了做出公平的判断，我们全面调查了在顶级会议上使用 VLM 的论文，并将其总结在表 1 中。我们的调查显示，CLIP【23】主要被用作 OOD 检测和其他子任务的 VLM，其他 VLM【56】【57】很少被使用。因此，在本综述中我们重点关注 CLIP 作为目标 VLM，并将使用 CLIP 进行的 OOD 检测称为基于 CLIP 的 OOD 检测。类似地，我们将为其他任务加上“基于 CLIP”的前缀（例如，基于 CLIP 的 AD）。由于 OOD 检测研究主要集中在图像领域，我们调查了与 OOD 检测研究有强烈联系的图像领域的其他任务。例如，我们的调查不包括视频领域的任务【58】【59】【60】，因为它们与 OOD 检测的联系有限。

(a) 感知 AD → 基于 CLIP 的 AD

感知 AD 作为基于 CLIP 的 AD 的常见问题设置继续发展，继承了传统感知 AD 的挑战【27】【29】【33】【35】【61】【62】【62】【63】【64】【65】。如表 1 所示，首次出现在顶级会议是在 CVPR 2023 会议上，自那时起，共有六篇论文发表在顶级会议上。此外，还有许多其他论文【61】【63】【64】【65】【66】。此外，在基准测试方面，除了常用的 MVTecAD【52】，最大的工业异常检测数据集 VisA【53】也成为该领域的标准基准。因此，显然感知 AD 在 VLM 时代已成为一个高度活跃且值得注意的领域。

(b) 语义 AD/ND → 研究不活跃

语义 AD/ND 的研究在 VLM 时代似乎变得不活跃。如表 1 所示，仅有两篇论文，分别是 TMLR 2022【37】和 CVPR 2024【35】。然而，CVPR 2024 论文【35】旨在构建一个通用的异常检测器，解决包括感知 AD 和语义 AD 在内的许多 AD 任务，并不主要关注语义 AD。不活跃的原因包括单类语义 AD/ND 性能的饱和，以及方法与 CLIP 不兼容多类语义 AD/ND。对于单类语义 AD/ND，TMLR【37】存在，但在常见的 CIFAR 和 ImageNet-30 数据集上的性能已达 99% 左右。对于多类语义 AD/ND，常见的方法是将 ID 类视为单一类，但将 ID 类视为单一类与 CLIP 的类级判别能力不太兼容。

(c) OSR → 基于 CLIP 的 OOD 检测

我们认为 OSR 已被整合到基于 CLIP 的困难 OOD 检测中。如表 1 所示，在 VLM 时代没有顶级会议上的 OSR 研究论文。最初，OSR 和 OOD 检测的主要区别在于基准测试设置【22】【55】。OSR 通常将一个数据集中的类分为已知（ID）类和未知（OOD）类，如 MNIST-4/6【67】CIFAR-4/6【68】、CIFAR-50/50【69】和 TinyImageNet-20/180【70】。然而，近年来，一些基于 CLIP 的 OOD 检测研究采用了 OSR 的基准设置，并创建了新的基准，如 ImageNet-10/ImageNet-20【26】和 ImageNet-protocol【47】【54】用于困难的 OOD 检测。因此，OOD 检测和 OSR 之间的界限已有效消失，VLM 时代的所有研究都已整合到 OOD 检测中。尽管纯粹的 OSR 研究在减少，但一些研究在领域泛化的背景下使用了“开放集”这一术语【71】。这些研究偏离了原始的 OSR 研究范围，更接近领域泛化【72】。因此，在我们的广义 OOD 检测 v2 中，我们不将这些研究归类为 OSR 研究。我们将在第 7.2 节中在全光谱 OOD 检测的背景下讨论它们，这是一项结合泛化和检测的研究领域。

(d) OOD 检测 → 基于 CLIP 的 OOD 检测

在 VLM 时代，OOD 检测是一个高度活跃的研究领域。如表 1 所示，顶级会议上有许多论文，表明该领域受到了社区的高度关注。此外，如上所述，OSR 已与 OOD 检测整合为困难 OOD 检测的一个领域【26】【47】。因此，预计 OOD 检测将继续增长并进一步发展。

(e) OD → 研究不活跃

OD 在 VLM 时代变得不活跃。以前，OD 用于开放集半监督学习【73】【74】【75】、带有开放集噪声标签的学习【76】和新颖性发现【77】【78】【79】【80】【81】。研究不活跃的原因是使用 CLIP 减少了训练成本，仅需收集少量数据，无需大量未标记数据，从而减少了考虑噪声数据的需求。然而，最近 Liang 等人【49】在 ICML2024 提出了用于基于 CLIP 的 OD 的无监督通用微调，这是一种新的问题设置。无监督通用微调假设了一种更现实的问题设置，即在下游任务的无监督微调中包含一些 OOD 样本。在这种新的问题设置下，OD 仍有可能在未来变得活跃。然而，由于 OD 目前不是一个活跃的领域，我们将 OD 排除在本综述的主要讨论之外。无监督通用微调与 OOD 检测密切相关，将在第 4.3 节中详细讨论。

2.3 讨论

通过第 2.2 节，我们发现之前混合的领域在 VLM 时代得到了正确组织，重点应放在 OOD 检测和感知 AD 上。这些领域仍在发展，方法和基准数量增加，预计在未来将变得更加活跃。需要注意的是，这并不意味着其他领域已经结束。例如，单类语义 AD/ND 未被研究的一个原因是性能饱和【37】。如果可以构建更细粒度和更具挑战性的数据集，该领域可能会重新活跃起来。我们将其排除在本综述的讨论范围之外，但这是一个重要的未来挑战。

3 VLM 时代各问题概述

除了上述领域间的演变，我们强调 VLM 的出现显著改变了 OOD 检测领域本身。在本节中，我们将概述基于 CLIP 的 OOD 检测，重点介绍问题定义、问题设置和基准测试的主要变化。此外，我们还将概述基于 CLIP 的 AD，希望对每个领域的理解能加深对基于 CLIP 的 OOD 检测的理解。对于传统问题中未发生变化的项目，如背景、应用和评估，我们建议读者参考原始的广义 OOD 检测论文【22】。

3.1 基于 CLIP 的分布外检测

定义基于 CLIP 的 OOD 检测的定义与传统 OOD 检测有显著不同。传统的 OOD 检测旨在检测从与训练分布不同的分布中抽取的测试样本。另一种定义是，OOD 检测被定义为检测模型无法或不想泛化的测试样本的任务【22】。然而，对于基于 CLIP 的 OOD 检测，CLIP 拥有大量的知识，因此 OOD 样本完全与 CLIP 的预训练数据分布或 CLIP 自身的泛化能力无关。因此，传统定义无法充分描述基于 CLIP 的 OOD 检测的定义。与之前的定义不同，基于 CLIP 的 OOD 检测定义如下【26】【39】：基于 CLIP 的 OOD 检测旨在检测不属于用户提供的任何 ID 类别文本的样本。给定一个预训练模型，感兴趣的分类任务由一组类标签 YID 定义，我们称之为 ID 类别。语义分布由分布 P(YID) 表示。基于 CLIP 的 OOD 检测旨在检测来自 ID 类别的语义分布发生变化的测试样本，即 P(YID) ≠ P(YOOD)。根据广义 OOD 检测框架的定义【22】，理想的 OOD 检测器应保持对来自 ID 类别空间 YID 的测试样本的分类性能，并拒绝语义超出 YID 支持的 OOD 测试样本。

问题设置基于 CLIP 的 OOD 检测重点在于以计算效率的方式解决图像分类任务。与传统的 OOD 检测设置主要涉及使用整个 ID 数据训练一个 ID 分类器不同，基于 CLIP 的 OOD 检测主要关注零样本【26】（即不使用 ID 图像）或少样本【28】（即仅使用少量 ID 图像）设置。两种设置的详细定义将在第 4 节中详细描述。该领域正朝着更高的计算效率发展，要求最少或不需要训练数据。

基准测试最近的基于 CLIP 的 OOD 检测工作使用高分辨率和大规模数据集，如 ImageNet【26】【28】【46】【47】【48】。常见的 ImageNet OOD 基准测试使用 ImageNet 作为 ID 数据集，其他数据集【82】【83】【84】【85】作为 OOD 数据集。然而，在这个常见基准测试中，ID 和 OOD 之间的语义差距较大，可能会使 ID 和 OOD 之间的区分变得容易。因此，最近的工作使用更具挑战性的 OOD 基准测试，将 ImageNet 类别划分为 ID 和 OOD 类别，用于困难的 OOD 检测【26】【47】【86】。代表性数据集包括 ImageNet-20【26】、ImageNet-10【26】和最近提出的 ImageNet-protocol【54】，它通过将 ImageNet-1K 分成多个 ID/OOD 对创建。这种创建策略最初关注 OSR，但最近被重新用于 OOD 检测。这些数据集的变化使 OOD 检测更接近现实世界，使其成为更具挑战性和实用性的任务。

3.2 基于 CLIP 的异常检测

定义与 OOD 检测不同，异常检测 (AD) 的定义在传统 AD 和基于 CLIP 的 AD 之间没有变化。AD 旨在特定情况下（如工业检测）使用，偏离预定义正常状态的样本被视为异常【11】【22】。模型是否能泛化与“异常”的定义无关。因此，即使有 CLIP 的出现，定义也没有改变。问题设置基于 CLIP 的 AD 重点在于以计算效率的方式解决异常分类和分割任务。异常分类，像传统 AD 一样，是一个区分正常和异常的二分类任务。异常分割，像传统 AD 一样，涉及分割异常的位置。与基于 CLIP 的 OOD 检测类似，基于 CLIP 的 AD 也主要关注零样本【27】（即不使用目标数据集中的图像）或少样本【27】（即仅使用目标数据集中少量正常图像）设置。零样本和少样本设置的详细定义将在第 5 节中详细描述。另一个变化是，传统 AD 为每个类别创建单独的模型【87】【88】【89】【90】【91】【92】【93】，而基于 CLIP 的 AD 为多个类别创建一个统一的模型【27】【29】【35】【61】【63】，这导致了一种更高效的计算方法。

与基于 CLIP 的 OOD 检测的一个关键区别在于，基于 CLIP 的 OOD 检测不涉及定位任务，而这些任务在基于 CLIP 的 AD 中是主流。这将在第 5.4 节中详细讨论。基准测试大多数关于基于 CLIP 的 AD 的工作都涉及工业检测【52】【94】【95】。在基准测试方面，除了常见的 MVTec-AD 数据集【52】，更具挑战性的 VisA 数据集【53】也被新采用【27】。VisA 基准测试包括具有复杂结构的物体（如印刷电路板）和单一视图中多个不同位置的实例，使其成为当前公开数据集中最具挑战性的数据集之一。自从基于 CLIP 的 AD 的开创性工作（即 WinCLIP【27】）使用 MVTec-AD 和 VisA 以来，许多后续工作也使用了这些数据集【33】【63】【65】。

结论

在本综述中，我们全面回顾了 VLM 时代五个问题的演变，包括异常检测 (AD)、新颖性检测 (ND)、开放集识别 (OSR)、分布外检测 (OOD) 和异常点检测 (OD)，并提出了广义 OOD 检测 v2 框架。我们的框架确定了 OOD 检测和 AD 作为 VLM 时代的主要挑战，突显了这些领域的严峻挑战并促进各个社区之间的合作。通过阐明定义、问题设置和基准测试的变化，我们鼓励后续工作准确理解 VLM 时代中其不断演变的目标问题。通过梳理方法论，我们希望读者能够轻松掌握主流方法，识别重要的基线和新颖的问题设置，并提出未来的解决方案。通过揭示 LVLM 时代的最新研究，我们希望每个社区的研究人员能够在这个新兴时代中识别出有前景的研究方向。通过提供未来的研究方向，我们希望本综述能够明确 VLM 和 LVLM 时代未来工作要解决的任务，从而推动该领域朝着正确方向的未来发展。

成为VIP会员查看完整内容