Temporal action localization (TAL) requires long-form reasoning to predict actions of various durations and complex content. Given limited GPU memory, training TAL end to end (i.e., from videos to predictions) on long videos is a significant challenge. Most methods can only train on pre-extracted features without optimizing them for the localization problem, consequently limiting localization performance. In this work, to extend the potential in TAL networks, we propose a novel end-to-end method Re2TAL, which rewires pretrained video backbones for reversible TAL. Re2TAL builds a backbone with reversible modules, where the input can be recovered from the output such that the bulky intermediate activations can be cleared from memory during training. Instead of designing one single type of reversible module, we propose a network rewiring mechanism, to transform any module with a residual connection to a reversible module without changing any parameters. This provides two benefits: (1) a large variety of reversible networks are easily obtained from existing and even future model designs, and (2) the reversible models require much less training effort as they reuse the pre-trained parameters of their original non-reversible versions. Re2TAL, only using the RGB modality, reaches 37.01% average mAP on ActivityNet-v1.3, a new state-of-the-art record, and mAP 64.9% at tIoU=0.5 on THUMOS-14, outperforming all other RGB-only methods.


翻译:时间动作定位需要长时记忆以预测不同持续时间和复杂内容的动作。鉴于有限的GPU内存,在长视频上进行端到端的TAL训练(即从视频到预测)是一个重大挑战。大多数方法只能在预先提取的特征上进行训练,而无法针对本地化问题对其进行优化,从而限制了定位性能。在这项工作中,为扩展TAL网络的潜力,我们提出了一种新颖的端到端方法Re2TAL,将预训练视频骨干重构为可逆TAL。Re2TAL构建了一个具有可逆模块的骨干,其中输入可以从输出中恢复,因此可以在训练期间从内部大量活化函数中清除内存。我们提出了一种网络重构机制,将任何具有残差连接的模块转换为可逆模块,而不改变任何参数。这提供了两个好处:(1)从现有的甚至未来的模型设计中轻松获得大量可逆网络;(2)可逆模型需要更少的训练工作,因为它们重用其原始非可逆版本的预训练参数。仅使用RGB模态的Re2TAL在ActivityNet-v1.3上实现了37.01%的平均mAP,创造了新的最高记录,在THUMOS-14上,在tIoU=0.5时达到了64.9%的mAP,优于所有其他仅基于RGB的方法。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年9月20日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月18日
Arxiv
20+阅读 · 2021年9月21日
VIP会员
相关VIP内容
专知会员服务
22+阅读 · 2021年9月20日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
相关基金
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员