论文概述:视频中的时序关系建模对于行为动作理解(如动作识别和动作分割)至关重要。尽管图卷积网络(GCN)在许多任务的关系推理中显示出令人鼓舞的优势,但如何在长视频序列上有效地应用图卷积网络仍然是一个挑战。其主要原因是大量存在的视频帧节点使GCN难以捕获和建模视频中的时序依赖关系。为了解决此问题,本文引入了一个有效的GCN模块,即膨胀时序图推理模块(DTGRM),该模块旨在对不同时间跨度视频帧之间的时序关系和相关性进行建模,尤其可以通过构造多级扩张的时序图来捕获和建模长跨度的时序关系。此外,为了增强所提出模型的时序推理能力,本文提出了一种辅助的自监督任务,以鼓励膨胀的时序图推理模块找到并纠正视频中错误的时序关系。本模型在三个具有挑战性的数据集上均优于最新的行动分割模型。
https://www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355