Temporal action localization (TAL) in videos is a challenging task, especially due to the large scale variation of actions. In the data, short actions usually occupy the major proportion, but have the lowest performance with all current methods. In this paper, we confront the challenge of short actions and propose a multi-level cross-scale solution dubbed as video self-stitching graph network (VSGN). We have two key components in VSGN: video self-stitching (VSS) and cross-scale graph pyramid network (xGPN). In VSS, we focus on a short period of a video and magnify it along the temporal dimension to obtain a larger scale. By our self-stitching approach, we are able to utilize the original clip and its magnified counterpart in one input sequence to take advantage of the complementary properties of both scales. The xGPN component further exploits the cross-scale correlations by a pyramid of cross-scale graph networks, each containing a hybrid temporal-graph module to aggregate features from across scales as well as within the same scale. Our VSGN not only enhances the feature representations, but also generates more positive anchors for short actions and more short training samples. Experiments demonstrate that VSGN obviously improves the localization performance of short actions as well as achieving the state-of-the-art overall performance on ActivityNet-v1.3, reaching an average mAP of 35.07 %.


翻译:视频中的时间行动本地化(TAL)是一项艰巨的任务,特别是由于行动的规模差异很大。在数据中,短动作通常占主要比例,但使用目前所有方法的性能最低。在本文中,我们面对短动作的挑战,并提出了一个多层次的跨规模解决方案,称为视频自我切换图形网络(VSGN),我们在VSGN中有两个关键组成部分:视频自我切换(VSS)和跨比例图形金字塔网络(xGPN)。在VSS中,我们侧重于一段短时间的视频,并沿着时间层面放大它,以获得更大的规模。通过我们自我切换的方法,我们能够利用最初的剪辑及其放大的对应方在一个输入序列中利用两个尺度的互补特性。 XGPN组件进一步利用跨比例图形网络的金字塔(VSS)的跨比例关联性关系,每个结构中包含一个混合时间测图模块,以便从不同尺度和同一规模的综合特征。我们的VSGNGN不仅能增强地显示功能的特征展示,而且显然能够使VGNA的短期动作升级行动达到短期的模型。

2
下载
关闭预览

相关内容

最新《自监督表示学习》报告,70页ppt
专知会员服务
86+阅读 · 2020年12月22日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
【阿尔托大学】图神经网络,Graph Neural Networks,附60页ppt
专知会员服务
182+阅读 · 2020年4月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
180+阅读 · 2020年2月1日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
111+阅读 · 2019年11月25日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
计算机视觉领域顶会CVPR 2018 接受论文列表
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
VIP会员
相关VIP内容
最新《自监督表示学习》报告,70页ppt
专知会员服务
86+阅读 · 2020年12月22日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
【阿尔托大学】图神经网络,Graph Neural Networks,附60页ppt
专知会员服务
182+阅读 · 2020年4月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
180+阅读 · 2020年2月1日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
111+阅读 · 2019年11月25日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
计算机视觉领域顶会CVPR 2018 接受论文列表
ETP:精确时序动作定位
极市平台
13+阅读 · 2018年5月25日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Top
微信扫码咨询专知VIP会员