复杂场景中的人群行为解析及其应用
随着人口的不断增长,行人聚集活动带来的安全问题日益突出。面向大规模 人群的智能视频监控受到各国学者的广泛关注,成为预防突发性群体事件的关键 技术。利用计算机视觉与图像处理技术对监控视频中的人群行为进行解析,可以 及时发现场景中的潜在危险因素,有助于公共场所安全性的提升。因此,人群行 为解析成为智能视频监控的一项热门研究课题,被广泛应用于公共安全保障中。
人群行为解析的根本任务是掌握人群的行为模式。在复杂、拥挤的场景中, 行人通常会呈现出有序的集体活动,形成群体,每个群体都具备特定的行为模 式。相比于个体行为,群体行为具有连续、稳定的特点,并包含了宏观层面的语 义信息。因此,群体行为模式的识别与分析成为人群行为解析的主要研究内容, 涉及异常检测和人群行为预测等多个研究方向。然而,大规模人群的复杂性为群 体行为的研究带来了诸多挑战:1. 流形结构难把握。由于个体间的密切交互,人 群中往往存在流形结构,属于同一群体的个体可能在行为表现上存在较大差异;2. 研究对象难提取。由于场景中存在严重的遮挡,个体的准确提取非常困难。已 有方法通常将运动特征点或粒子作为研究对象,但这些特征点和粒子过于局部化, 运动信息不稳定,在某些场景中难以准确反映个体的运动情况;3. 行为特征难挖 掘。在大规模场景中,个体分布非常密集,计算机视觉中常用的颜色、形状等特 征难以利用,导致难以挖掘群体的行为特征。
围绕上述难点,本文对复杂场景中的人群行为解析问题进行了深入研究,以 群体行为的识别与分析为研究重点,提出了一系列新方法,主要包括:
为挖掘场景中的流形结构,提出了基于锚点的人群行为解析方法。在人群 场景中,群体中往往包含一些代表性个体,其行为可大致反应所在群体的行为模 式。受此现象启发,该方法提出了交互度的概念,将与周围特征点交互频繁的点 作为锚点,每个锚点对应一个类别。进而,利用流形排序方法,计算特征点在拓 扑结构上的关系,并根据与锚点的拓扑关系,对每个特征点分配群体类别,得到 子群体。最后,提出了连续性合并策略,将在空间、运动方向上表现出连续性的 子群体进行合并,得到最终群体。该方法充分挖掘了特征点在结构层面的拓扑关 系,能够在结构复杂的人群中准确识别群体行为。
为减轻研究对象局部化问题,提出了基于图像块主题的人群行为解析方 法。区别于直接将特征点作为研究对象的工作,该方法对人群图像进行分割,以 图像块为单位研究特征点运动规律,并提出图像块描述子,以获得人群运动的结 构上下文表征。进而,为深入挖掘人群中的潜在行为模式,该方法利用隐狄利克 雷分布模型对图像块的语义主题进行推理,找出共享同一主题的图像块。同时, 该方法将局部一致性引入隐狄利克雷分布模型中,以挖掘图像块的空间关联线 索。最后,利用类内距离评价标准,自动确定最优的群体数目,并完成群体行为 的识别。该方法通过学习图像块的语义主题,在避免研究对象局部化的同时有效 挖掘了群体行为所包含的语义信息。
为处理场景属性与拍摄视角多样化的人群视频,同时减轻研究对象局部化问题,提出了基于多视角聚类的无参数人群行为解析方法。该方法提出了基于邻 近点运动方向分布的结构上下文描述子,从宏观层面理解人群行为。所提描述子 对轨迹抖动不敏感,且能够反映特征点的结构信息。为结合特征点在运动方向和 结构上的关联信息,提出了权重自适应的多视角聚类算法,对不同视角的相似图 进行融合,自适应地学习最优相似图,并得到初步的子群体。考虑到不同子群体 间可能存在较高的关联,提出了基于紧密度的子群体融合方法,对相似子群体进 行合并。该方法不涉及任何参数,因此适用于密度、结构分布多样化的人群场景。
为充分挖掘人群行为特征,提出了基于图像块多视角聚类的人群行为解析 方法。为充分挖掘人群行为特征,该方法分别从交互关系、空间位置、运动方向 分布和运动规律等四个视角比较图像块中特征点的运动相似度。为结合不同视角 的信息,提出了一种基于相似图多样性的多视角聚类方法,在多视角学习过程中 引入图多样性正则项,强调了不同视角的互补性,并自动地学习不同视角的权重, 得到子群体。最后,提出了基于运动方向和中心位置的子群体合并方法,将被划 分入不同子群体的相似图像块进行合并,得到最终群体。该方法提出了多种人群 行为表征方法,并对图像块进行多视角聚类,有效缓解了研究行为特征利用不充 分和对象局部化的问题。