ICCV 2021-VSGN:视频时间动作定位的多层次跨尺度解决方案开源

2021 年 12 月 8 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨Chen Zhao, Ali Thabet, Bernard Ghanem
编辑丨极市平台

极市导读

 

面对短动作定位中存在的挑战,本文提出了一种多层次跨尺度的解决方案——视频自拼接图网络,该网络能够在THUMOS-14和ActivityNet-v1.3数据集上显著提高短动作的定位性能,并获得了当前最优的时间动作定位性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

全部作者:Chen Zhao, Ali Thabet, Bernard Ghanem

作者单位:沙特国王科技大学

论文发表:ICCV 2021

论文链接:https://openaccess.thecvf.com/content/ICCV2021/papers/Zhao_Video_Self-Stitching_Graph_Network_for_Temporal_Action_Localization_ICCV_2021_paper.pdf

GitHub地址:https://github.com/coolbay/VSGN

导读:

视频中的时间动作定位是一项具有挑战性的任务,尤其是由于动作时间尺度上的巨大变化。短动作通常在数据集中占据很大比例,但其定位性能往往最低。面对短动作定位中存在的挑战,本文提出了一种多层次跨尺度的解决方案——视频自拼接图网络,该网络能够在THUMOS-14和ActivityNet-v1.3数据集上显著提高短动作的定位性能,并获得了当前最优的时间动作定位性能。

1.摘要:

视频中的时间动作定位是一项具有挑战性的任务,尤其是由于动作时间尺度上的巨大变化。短动作通常在数据集中占据很大比例,但其定位性能往往最低。面对短动作定位中存在的挑战,本文提出了一种多层次跨尺度的解决方案——视频自拼接图网络(VSGN)。在VSGN中包含两个关键组件:视频自拼接(VSS)和跨尺度图金字塔网络(xGPN)。在VSS组件中,文中着重关注视频的一个短周期,并沿着时间维度将其放大以获得更大的尺度,并将原始片段及其放大的对应片段缝合在一个输入序列中,以利用两种比例的互补属性。xGPN组件通过跨尺度图网络的金字塔结构进一步利用跨尺度相关性,每个网络包含一个混合模块来聚合跨尺度和同一尺度内的特征信息。文章中提出的VSGN网络不仅增强了特征表示,而且为短动作和短训练样本生成了更多的正样例锚点。实验表明,VSGN在THUMOS-14和ActivityNet-v1.3数据集上显著提高了短动作的定位性能,并获得了目前最优的整体性能。

2.方法

文章提出了一种视频自拼接图网络(video self-stitching graph network,VSGN),其整体架构如上图所示。VSGN将一个视频序列作为输入,生成带有开始/结束时间及其类别的检测到的动作。它主要有三个组成部分:视频自拼接(VSS)、跨尺度图金字塔网络(xGPN)和评分与定位(SoL)。VSS(红色虚线框)包含准备一个视频序列作为xGPN输入的四个步骤。xGPN由多级编码器和解码器金字塔组成。编码器通过一堆跨尺度图网络(xGN)聚合不同层次的特征(黄色梯形区域);解码器恢复时间分辨率并生成用于检测的多级特征。SoL(蓝色虚线框)包含四个模块,前两个模块预测动作分数和边界,后两个模块产生补充分数和调整边界。

具体来讲,视频自拼接(VSS)组件将视频转换为网络的多尺度输入,网络结构如下图所示。它采用一个视频序列,提取片段级特征,如果是长的,则剪切成多个短剪辑,沿着时间维度放大每个短剪辑,并将每对原始剪辑和放大剪辑缝合成一个序列。

跨尺度图金字塔网络(xGPN)通过一个包含时间分支和图分支的混合模块,在多个网络级别上逐步聚合来自跨尺度以及来自相同尺度的特征,其网络结构如下图所示:

3.性能

(1)在THUMOS-14数据集上表现:

(2)在ActivityNet-v1.3数据集上表现:

如果觉得有用,就请分享到朋友圈吧!

△点击卡片关注极市平台,获取 最新CV干货

公众号后台回复“transformer”获取最新Transformer综述论文下载~


极市干货
课程/比赛: 珠港澳人工智能算法大赛 保姆级零基础人工智能教程
算法trick 目标检测比赛中的tricks集锦 从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
技术综述: 一文弄懂各种loss function 工业图像异常检测最新研究总结(2019-2020)


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~



觉得有用麻烦给个在看啦~   


登录查看更多
0

相关内容

[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
17+阅读 · 2021年10月30日
专知会员服务
42+阅读 · 2021年8月20日
专知会员服务
37+阅读 · 2021年3月31日
专知会员服务
59+阅读 · 2021年3月17日
专知会员服务
50+阅读 · 2021年1月19日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员