ICCV 2021-VSGN：视频时间动作定位的多层次跨尺度解决方案开源

2021 年 12 月 8 日 极市平台

↑ 点击蓝字关注极市平台

作者丨Chen Zhao, Ali Thabet, Bernard Ghanem

编辑丨极市平台

极市导读

面对短动作定位中存在的挑战，本文提出了一种多层次跨尺度的解决方案——视频自拼接图网络，该网络能够在THUMOS-14和ActivityNet-v1.3数据集上显著提高短动作的定位性能，并获得了当前最优的时间动作定位性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

全部作者：Chen Zhao, Ali Thabet, Bernard Ghanem

作者单位：沙特国王科技大学

论文发表：ICCV 2021

论文链接：https://openaccess.thecvf.com/content/ICCV2021/papers/Zhao_Video_Self-Stitching_Graph_Network_for_Temporal_Action_Localization_ICCV_2021_paper.pdf

GitHub地址：https://github.com/coolbay/VSGN

导读：

视频中的时间动作定位是一项具有挑战性的任务，尤其是由于动作时间尺度上的巨大变化。短动作通常在数据集中占据很大比例，但其定位性能往往最低。面对短动作定位中存在的挑战，本文提出了一种多层次跨尺度的解决方案——视频自拼接图网络，该网络能够在THUMOS-14和ActivityNet-v1.3数据集上显著提高短动作的定位性能，并获得了当前最优的时间动作定位性能。

1.摘要：

视频中的时间动作定位是一项具有挑战性的任务，尤其是由于动作时间尺度上的巨大变化。短动作通常在数据集中占据很大比例，但其定位性能往往最低。面对短动作定位中存在的挑战，本文提出了一种多层次跨尺度的解决方案——视频自拼接图网络(VSGN)。在VSGN中包含两个关键组件：视频自拼接(VSS)和跨尺度图金字塔网络(xGPN)。在VSS组件中，文中着重关注视频的一个短周期，并沿着时间维度将其放大以获得更大的尺度，并将原始片段及其放大的对应片段缝合在一个输入序列中，以利用两种比例的互补属性。xGPN组件通过跨尺度图网络的金字塔结构进一步利用跨尺度相关性，每个网络包含一个混合模块来聚合跨尺度和同一尺度内的特征信息。文章中提出的VSGN网络不仅增强了特征表示，而且为短动作和短训练样本生成了更多的正样例锚点。实验表明，VSGN在THUMOS-14和ActivityNet-v1.3数据集上显著提高了短动作的定位性能，并获得了目前最优的整体性能。

2.方法

文章提出了一种视频自拼接图网络（video self-stitching graph network，VSGN)，其整体架构如上图所示。VSGN将一个视频序列作为输入，生成带有开始/结束时间及其类别的检测到的动作。它主要有三个组成部分：视频自拼接(VSS)、跨尺度图金字塔网络(xGPN)和评分与定位(SoL)。VSS(红色虚线框)包含准备一个视频序列作为xGPN输入的四个步骤。xGPN由多级编码器和解码器金字塔组成。编码器通过一堆跨尺度图网络(xGN)聚合不同层次的特征(黄色梯形区域)；解码器恢复时间分辨率并生成用于检测的多级特征。SoL(蓝色虚线框)包含四个模块，前两个模块预测动作分数和边界，后两个模块产生补充分数和调整边界。

具体来讲，视频自拼接(VSS)组件将视频转换为网络的多尺度输入，网络结构如下图所示。它采用一个视频序列，提取片段级特征，如果是长的，则剪切成多个短剪辑，沿着时间维度放大每个短剪辑，并将每对原始剪辑和放大剪辑缝合成一个序列。