【博士论文】复杂场景中的人群行为解析及其应用

复杂场景中的人群行为解析及其应用

随着人口的不断增长，行人聚集活动带来的安全问题日益突出。面向大规模人群的智能视频监控受到各国学者的广泛关注，成为预防突发性群体事件的关键技术。利用计算机视觉与图像处理技术对监控视频中的人群行为进行解析，可以及时发现场景中的潜在危险因素，有助于公共场所安全性的提升。因此，人群行为解析成为智能视频监控的一项热门研究课题，被广泛应用于公共安全保障中。

人群行为解析的根本任务是掌握人群的行为模式。在复杂、拥挤的场景中，行人通常会呈现出有序的集体活动，形成群体，每个群体都具备特定的行为模式。相比于个体行为，群体行为具有连续、稳定的特点，并包含了宏观层面的语义信息。因此，群体行为模式的识别与分析成为人群行为解析的主要研究内容，涉及异常检测和人群行为预测等多个研究方向。然而，大规模人群的复杂性为群体行为的研究带来了诸多挑战：1. 流形结构难把握。由于个体间的密切交互，人群中往往存在流形结构，属于同一群体的个体可能在行为表现上存在较大差异；2. 研究对象难提取。由于场景中存在严重的遮挡，个体的准确提取非常困难。已有方法通常将运动特征点或粒子作为研究对象，但这些特征点和粒子过于局部化，运动信息不稳定，在某些场景中难以准确反映个体的运动情况；3. 行为特征难挖掘。在大规模场景中，个体分布非常密集，计算机视觉中常用的颜色、形状等特征难以利用，导致难以挖掘群体的行为特征。

围绕上述难点，本文对复杂场景中的人群行为解析问题进行了深入研究，以群体行为的识别与分析为研究重点，提出了一系列新方法，主要包括：

为挖掘场景中的流形结构，提出了基于锚点的人群行为解析方法。在人群场景中，群体中往往包含一些代表性个体，其行为可大致反应所在群体的行为模式。受此现象启发，该方法提出了交互度的概念，将与周围特征点交互频繁的点作为锚点，每个锚点对应一个类别。进而，利用流形排序方法，计算特征点在拓扑结构上的关系，并根据与锚点的拓扑关系，对每个特征点分配群体类别，得到子群体。最后，提出了连续性合并策略，将在空间、运动方向上表现出连续性的子群体进行合并，得到最终群体。该方法充分挖掘了特征点在结构层面的拓扑关系，能够在结构复杂的人群中准确识别群体行为。
为减轻研究对象局部化问题，提出了基于图像块主题的人群行为解析方法。区别于直接将特征点作为研究对象的工作，该方法对人群图像进行分割，以图像块为单位研究特征点运动规律，并提出图像块描述子，以获得人群运动的结构上下文表征。进而，为深入挖掘人群中的潜在行为模式，该方法利用隐狄利克雷分布模型对图像块的语义主题进行推理，找出共享同一主题的图像块。同时，该方法将局部一致性引入隐狄利克雷分布模型中，以挖掘图像块的空间关联线索。最后，利用类内距离评价标准，自动确定最优的群体数目，并完成群体行为的识别。该方法通过学习图像块的语义主题，在避免研究对象局部化的同时有效挖掘了群体行为所包含的语义信息。
为处理场景属性与拍摄视角多样化的人群视频，同时减轻研究对象局部化问题，提出了基于多视角聚类的无参数人群行为解析方法。该方法提出了基于邻近点运动方向分布的结构上下文描述子，从宏观层面理解人群行为。所提描述子对轨迹抖动不敏感，且能够反映特征点的结构信息。为结合特征点在运动方向和结构上的关联信息，提出了权重自适应的多视角聚类算法，对不同视角的相似图进行融合，自适应地学习最优相似图，并得到初步的子群体。考虑到不同子群体间可能存在较高的关联，提出了基于紧密度的子群体融合方法，对相似子群体进行合并。该方法不涉及任何参数，因此适用于密度、结构分布多样化的人群场景。
为充分挖掘人群行为特征，提出了基于图像块多视角聚类的人群行为解析方法。为充分挖掘人群行为特征，该方法分别从交互关系、空间位置、运动方向分布和运动规律等四个视角比较图像块中特征点的运动相似度。为结合不同视角的信息，提出了一种基于相似图多样性的多视角聚类方法，在多视角学习过程中引入图多样性正则项，强调了不同视角的互补性，并自动地学习不同视角的权重，得到子群体。最后，提出了基于运动方向和中心位置的子群体合并方法，将被划分入不同子群体的相似图像块进行合并，得到最终群体。该方法提出了多种人群行为表征方法，并对图像块进行多视角聚类，有效缓解了研究行为特征利用不充分和对象局部化的问题。

成为VIP会员查看完整内容