群体行为识别 (GAR) 是人物行为识别的一个子问题,群体行为由人物的个人行为和人物之间的交互组成,该任务旨在推断场景中人物群体的整体行为标签。GAR有着丰富的应用场景,包括监控视频分析、体育视频解析、社交场景理解等。GAR的关键问题是在给定视频片段的情况下,结合时空交互因素来获得精细的行为特征表示。
最近提出的推理模块主要结合时空交互因素来获得精细的活动表示,最常用的方法主要结合循环神经网络、注意力机制和图神经网络 (GNN)。GNN是GAR中经常采用的方法,GNN在构建的语义图上执行消息传递,并在公开数据集的测试中取得了有竞争力的结果。然而,以前使用GNN的方法只在预定义的图形上对个人之间的交互进行建模,但是存在以下缺点:
对于给定人的交互模式是预先定义的而不是基于目标人的视觉时空上下文,预定义的图推理不适用于所有人的特征更新;
预定义全连接或者交叉连接的图模型很容易导致过度平滑,使特征无法区分并降低性能。
此外,如果扩展到长视频片段或扩展到有很多人的场景,计算开销会显著上涨。
为了解决以上问题,受[1,2]启发,我们提出了动态推理网络 (DIN),其中包含动态关系 (DR) 和动态游走 (DW) 两个模块。这两个模块组合可以用于预测人物各异的交互图,以便更好地建模交互,如上图所示。对于时空图上的给定人物特征,本文首先定义其时空邻居为时空交互域,该交互域在DR和DW之间共享。
该交互域的大小不会受到空间或时间扩展的影响,从而减少计算。在这个初始化的交互域中,我们使用 DR 来预测一个中心特征的关系矩阵,表示人与人之间的交互关系。然后,为了对长时期的时间和空间依赖性建模,我们使用 DW 来预测域内每个特征的动态游走偏移,动态游走允许局部初始化的交互域可以在全局的时空图上更新特征。DR和DW实现简单,很容易部署到任何广泛使用的主干网络上,我们把这整个时空推理框架称为DIN。
此外,以前的方法很少进行计算复杂度分析,但这是对设计模块的重要评估,因此本文进行了计算复杂性分析,并表明提出的模块在效果更好的同时,计算开销更低。