Weakly-supervised temporal action localization (WTAL) in untrimmed videos has emerged as a practical but challenging task since only video-level labels are available. Existing approaches typically leverage off-the-shelf segment-level features, which suffer from spatial incompleteness and temporal incoherence, thus limiting their performance. In this paper, we tackle this problem from a new perspective by enhancing segment-level representations with a simple yet effective graph convolutional network, namely action complement graph network (ACGNet). It facilitates the current video segment to perceive spatial-temporal dependencies from others that potentially convey complementary clues, implicitly mitigating the negative effects caused by the two issues above. By this means, the segment-level features are more discriminative and robust to spatial-temporal variations, contributing to higher localization accuracies. More importantly, the proposed ACGNet works as a universal module that can be flexibly plugged into different WTAL frameworks, while maintaining the end-to-end training fashion. Extensive experiments are conducted on the THUMOS'14 and ActivityNet1.2 benchmarks, where the state-of-the-art results clearly demonstrate the superiority of the proposed approach.


翻译:由于只有视频标签,在未剪辑的视频中,微弱监管的时间行动定位(WTAL)已成为一项实际但富有挑战性的任务,因为只有视频标签,现有方法通常会影响现成的片段层面特征,这些特征存在空间上的不完整和时间上的不一致,从而限制其性能。在本文件中,我们从一个新的角度来解决这一问题,方法是通过一个简单而有效的图形共变网络,即行动补充图形网络(ACGNet),加强部分层面的表达方式,通过一个简单而有效的图形共振网络(即行动补充图形网络),加强这一层面的表述方式,加强这一问题。它便利目前的视频段从其他部分看到空间时的依赖性,从而有可能传递补充线索,暗含减轻上述两个问题造成的消极影响。通过这一方式,部分层面的特征对空间时空变化更具歧视性和强势,从而有助于更高的本地化。更重要的是,拟议中的ACGNet作为一个通用模块,可以灵活地插入不同的WTAL框架,同时保持端对端培训方式。在THUMOS'14和活动Net1.2基准上进行了广泛的实验,其中明确展示了拟议的状态优势。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年9月10日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
79+阅读 · 2020年6月11日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉领域顶会CVPR 2018 接受论文列表
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
已删除
将门创投
3+阅读 · 2017年11月3日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉领域顶会CVPR 2018 接受论文列表
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
已删除
将门创投
3+阅读 · 2017年11月3日
Top
微信扫码咨询专知VIP会员