Video data is with complex temporal dynamics due to various factors such as camera motion, speed variation, and different activities. To effectively capture this diverse motion pattern, this paper presents a new temporal adaptive module ({\bf TAM}) to generate video-specific temporal kernels based on its own feature map. TAM proposes a unique two-level adaptive modeling scheme by decoupling the dynamic kernel into a location sensitive importance map and a location invariant aggregation weight. The importance map is learned in a local temporal window to capture short-term information, while the aggregation weight is generated from a global view with a focus on long-term structure. TAM is a modular block and could be integrated into 2D CNNs to yield a powerful video architecture (TANet) with a very small extra computational cost. The extensive experiments on Kinetics-400 and Something-Something datasets demonstrate that our TAM outperforms other temporal modeling methods consistently, and achieves the state-of-the-art performance under the similar complexity. The code is available at \url{ https://github.com/liu-zhy/temporal-adaptive-module}.


翻译:视频数据由于摄影机动、速度变化和不同活动等各种因素而具有复杂的时间动态。 为了有效捕捉这种不同的运动模式,本文件展示了一个新的时间适应模块(~bf TAM}),以根据自己的地貌地图生成视频特定的时间内核。 TAM提出一个独特的两级适应模型,将动态内核分离成一个敏感位置重要位置的地图和一个不易变聚合的重量位置。重要地图由当地时间窗口学习,以捕捉短期信息,而汇总权重则从全球视角产生,以长期结构为重点。TAM是一个模块块,可并入2D CNN,以产生一个强大的视频结构(TATNet),并产生非常小的额外的计算成本。关于动因学-400和某些东西的大规模实验表明,我们的TAM与其他时间模型方法一致,并在类似的复杂情况下实现状态的性能。代码可以在\url{ https://github.com/lizhy/state}

0
下载
关闭预览

相关内容

《机器学习思维导图》,一图掌握机器学习知识要点
专知会员服务
68+阅读 · 2021年1月12日
专知会员服务
60+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
“CVPR 2020 接受论文列表 1470篇论文都在这了
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
Arxiv
3+阅读 · 2021年10月14日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员