Temporal action detection aims to predict the time intervals and the classes of action instances in the video. Despite the promising performance, existing two-stream models exhibit slow inference speed due to their reliance on computationally expensive optical flow. In this paper, we introduce a decomposed cross-modal distillation framework to build a strong RGB-based detector by transferring knowledge of the motion modality. Specifically, instead of direct distillation, we propose to separately learn RGB and motion representations, which are in turn combined to perform action localization. The dual-branch design and the asymmetric training objectives enable effective motion knowledge transfer while preserving RGB information intact. In addition, we introduce a local attentive fusion to better exploit the multimodal complementarity. It is designed to preserve the local discriminability of the features that is important for action localization. Extensive experiments on the benchmarks verify the effectiveness of the proposed method in enhancing RGB-based action detectors. Notably, our framework is agnostic to backbones and detection heads, bringing consistent gains across different model combinations.


翻译:时序动作检测旨在预测视频中动作实例的类别和时间间隔。尽管取得了不俗的性能,现有的双流模型由于依赖计算成本高昂的光流而呈现出较慢的推断速度。本文通过交叉模态蒸馏提出一种分解框架,用于基于 RGB 数据建立强大的动作检测器,并传输运动模态的知识。具体而言,我们提出了分别学习 RGB 和运动表示的双分支设计,这些表示被结合起来进行动作定位。对称的训练目标和双分支设计有利于有效地传输运动知识,同时保持 RGB 信息不变。此外,我们引入了局部注意力融合,以更好地利用多模态互补性。此局部融合设计旨在维护特征的局部区分度,这对动作定位非常重要。在基准测试上进行的大量实验验证了所提方法增强 RGB 动作检测器的有效性。值得注意的是,我们的框架对骨干网和检测头均不敏感,可在不同的模型组合中带来持续的收益。

0
下载
关闭预览

相关内容

【NeurIPS2021】多模态虚拟点三维检测
专知会员服务
18+阅读 · 2021年11月16日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
AAAI 2018 行为识别论文概览
极市平台
18+阅读 · 2018年3月20日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
16+阅读 · 2021年11月27日
Arxiv
18+阅读 · 2021年6月10日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
19+阅读 · 2018年5月17日
VIP会员
相关VIP内容
【NeurIPS2021】多模态虚拟点三维检测
专知会员服务
18+阅读 · 2021年11月16日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员