In this paper, we introduce 'Coarse-Fine Networks', a two-stream architecture which benefits from different abstractions of temporal resolution to learn better video representations for long-term motion. Traditional Video models process inputs at one (or few) fixed temporal resolution without any dynamic frame selection. However, we argue that, processing multiple temporal resolutions of the input and doing so dynamically by learning to estimate the importance of each frame can largely improve video representations, specially in the domain of temporal activity localization. To this end, we propose (1) `Grid Pool', a learned temporal downsampling layer to extract coarse features, and, (2) `Multi-stage Fusion', a spatio-temporal attention mechanism to fuse a fine-grained context with the coarse features. We show that our method can outperform the state-of-the-arts for action detection in public datasets including Charades with a significantly reduced compute and memory footprint.


翻译:在本文中,我们引入了“粗金刚石网络”,这是一个双流结构,它从时间分辨率的不同抽象取法中受益,以学习更好的长期运动视频演示。传统视频模型将投入用一个(或几个)固定时间分辨率处理,而没有任何动态框架选择。然而,我们争辩说,处理输入的多重时间分辨率,通过学习估计每个框架的重要性,动态地这样做,可以在很大程度上改善视频演示,特别是在时间活动本地化领域。为此,我们提议:(1) `Grid Pool',一个学习的抽取时间下游层,以提取粗皮特征,(2) “Multi-阶段混凝土”,一个将精细的色彩与粗皮特征结合的时钟关注机制。我们表明,我们的方法可以超越公共数据集(包括计算和记忆足迹明显减少的Charades)中用于行动探测的艺术状态。

3
下载
关闭预览

相关内容

专知会员服务
21+阅读 · 2021年3月9日
专知会员服务
60+阅读 · 2020年3月19日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Learning Memory-guided Normality for Anomaly Detection
Arxiv
11+阅读 · 2019年4月15日
VIP会员
相关VIP内容
专知会员服务
21+阅读 · 2021年3月9日
专知会员服务
60+阅读 · 2020年3月19日
相关资讯
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Top
微信扫码咨询专知VIP会员