10年视频异常检测:综述与展望

视频异常检测（Video Anomaly Detection, VAD）在监控、医疗保健和环境监测等多个领域具有重要意义。尽管许多综述专注于传统的VAD方法，但它们往往在探讨具体方法和新兴趋势方面缺乏深度。本综述探讨了基于深度学习的VAD，不仅扩展了传统的监督训练范式，还涵盖了新兴的弱监督、自监督和无监督方法。本综述的一个显著特点是研究了VAD范式中的核心挑战，包括大规模数据集、特征提取、学习方法、损失函数、正则化和异常评分预测。此外，本综述还探讨了视觉语言模型（Vision Language Models, VLMs）作为VAD强大特征提取器的潜力。VLMs将视觉数据与视频中的文本描述或口语结合起来，使得对场景的细致理解成为可能，这对异常检测至关重要。通过解决这些挑战并提出未来研究方向，本综述旨在促进开发利用VLMs能力的健壮高效的VAD系统，以增强在复杂现实场景中的异常检测。本全面分析旨在弥合现有知识空白，为研究人员提供有价值的见解，并助力VAD研究的未来发展。

异常检测旨在识别偏离给定数据模态中典型或预期行为的事件或模式【1】【2】。它在各种应用中具有广泛的应用，从欺诈检测和网络入侵检测的网络安全到制造业中的质量保证、工业机械的故障识别、医疗监测等。我们的主要重点是视频异常检测（Video Anomaly Detection, VAD）【3】，这是一项关键技术，能够自动识别视频序列中的异常或可疑活动。

虽然传统的VAD方法已经被广泛研究，但深度学习技术的快速进步为更有效的异常检测开辟了新的途径【4】。深度学习算法，如卷积神经网络（CNNs）和视觉Transformers（ViTs），在从大规模数据中学习复杂模式和表示方面展示了显著的能力【5】【6】。这些进步显著提升了VAD的性能，使得视频数据中异常的检测更加准确和可靠。通过利用深度学习技术，研究人员和从业者能够开发出比传统方法更具创新性的方法，并解决与传统机器学习相关的限制【7】【8】。

尽管大多数基于深度学习的VAD系统依赖于监督学习范式，近年来对探索新方法的兴趣激增，包括弱监督、自监督和无监督方法【9】【10】【11】。这些替代方法为解决传统VAD方法所遇到的挑战提供了有前景的解决方案，例如对大量标注数据集的需求以及捕捉复杂时空模式的难度。通过利用深度学习技术，研究人员期望培养能够应对多种现实世界场景和应用的强大且高效的VAD系统【1】【12】。同样，一些研究挑战还没有被充分探索或仍未被探索。例如，一个关键考虑因素是可用数据集的质量和多样性。开发新兴的综合数据集，如UCF Crime数据集【11】、XD-Violence数据集【13】和上海科技数据集【14】，在这一进展中起着至关重要的作用。这些数据集涵盖了各种类型的异常，显著提升了VAD技术。

在VAD中，视频由帧序列组成，形成复杂的高维时空数据。检测此类复杂数据中的异常需要能够有效捕捉空间、时间、时空和文本特征的方法。为了解决这些挑战，学术研究中引入了许多VAD方法和深度特征提取器，这在推进当前最先进技术方面发挥了重要作用。同样值得一提的是，根据VAD范式类型选择正确的损失函数的重要性。因此，损失函数和正则化技术是VAD问题中的另一个挑战。另一个显著的挑战在于各种范式，包括自监督、弱监督、全监督和视觉语言模型，用于解决VAD问题。这些范式可以分为经典和深度学习方法。经典方法采用手工特征，包括时空梯度【15】、定向梯度直方图（HOG）特征【16】【17】和光流直方图（HOF）【18】，这些特征在时间立方体中选择，用于有效捕捉外观和运动信息。深度学习方法在丰富特征表示和端到端学习方面更强大，并且由于不同学习模型的进步，在过去十年中获得了很大的人气。具体而言，这些方法利用强大的特征提取器来捕捉有意义的时空特征。例子包括卷积神经网络【19】、自动编码器【20】、生成对抗网络（GANs）【21】、视觉Transformers【22】【23】和视觉语言模型【24】【25】。

除了VAD问题中的上述固有挑战，每种范式都有不同的损失函数、时空正则化/约束和异常评分预测组件。在本综述中，我们还识别了这些不同的模块，并为上述每个挑战提供了重要的见解。图1展示了代表性深度学习VAD方法在两个公开可用基准数据集（包括UCF-Crime【11】和上海科技【14】）上的性能变化。性能以ROC曲线下面积（AUC%）表示。图中的性能改进趋势强调了过去十年中深度学习方法的显著进步，最近提出的视觉语言模型取得了最显著的改进【26】。

动机：尽管对VAD的兴趣日益浓厚，并且基于深度学习的方法层出不穷，但仍需要一项全面的综述来探索该领域的最新发展。现有综述通常专注于传统的VAD方法，可能未充分覆盖新兴趋势和方法，如视觉语言模型（VLMs）【33】【34】【35】【36】。通过深入探讨VLMs和基于深度学习的VAD，包括监督、弱监督、自监督和无监督方法，本综述旨在提供对最先进技术及其潜在应用的全面理解。我们的主要关注点是基于深度学习的VAD解决方案。特别是，我们探索了采用不同数据集、特征提取、损失函数和时空正则化的VAD新范式。此外，我们还对VAD中使用的50多种不同方法进行了全面分析，特别关注通过视觉语言模型提取的文本特征的潜力。在本综述中，我们的主要贡献总结如下：

我们识别了最先进VAD范式的核心挑战，包括在特征提取、大规模VAD训练数据集、损失函数、时空正则化和视频异常评分预测方面的视觉语言模型。
我们通过定量和定性比较对最先进模型在不同基准数据集上的性能进行了对比分析。这一分析揭示了现有方法的优缺点，为该领域的研究人员和从业者提供了宝贵的见解。
根据我们的分析，我们提出了应对VAD领域未解决挑战的建议。这些建议基于我们对当前VAD研究现状的深入理解，旨在指导未来研究方向，克服现有的限制并推动最先进技术的发展。本文结构如下：第二部分概述了过去十年中选定的研究方法。第三部分回顾了视频异常检测领域的先前综述。第四部分提出了视频异常检测问题的公式化。第五部分提出了核心VAD挑战。第六部分概述了使用的实验和评估协议。第七部分通过定量和定性比较提供了最先进模型的对比分析。第八部分提供了主题分析的文献计量网络可视化。最后，我们在第九部分总结了我们的工作并提出了未来的研究方向。