Interpreting human actions requires understanding the spatial and temporal context of the scenes. State-of-the-art action detectors based on Convolutional Neural Network (CNN) have demonstrated remarkable results by adopting two-stream or 3D CNN architectures. However, these methods typically operate in a non-real-time, ofline fashion due to system complexity to reason spatio-temporal information. Consequently, their high computational cost is not compliant with emerging real-world scenarios such as service robots or public surveillance where detection needs to take place at resource-limited edge devices. In this paper, we propose ACDnet, a compact action detection network targeting real-time edge computing which addresses both efficiency and accuracy. It intelligently exploits the temporal coherence between successive video frames to approximate their CNN features rather than naively extracting them. It also integrates memory feature aggregation from past video frames to enhance current detection stability, implicitly modeling long temporal cues over time. Experiments conducted on the public benchmark datasets UCF-24 and JHMDB-21 demonstrate that ACDnet, when integrated with the SSD detector, can robustly achieve detection well above real-time (75 FPS). At the same time, it retains reasonable accuracy (70.92 and 49.53 frame mAP) compared to other top-performing methods using far heavier configurations. Codes will be available at https://github.com/dginhac/ACDnet.


翻译:以进化神经网络(CNN)为基础的最先进的行动探测器已经通过采用双流或3DCNN结构展示了显著的成果;然而,这些方法一般都是在非实时、直线时态运作,因为系统复杂,而理性的spatio-时间信息具有一定的系统复杂性。因此,它们高昂的计算成本不符合新出现的现实世界情景,例如服务机器人或公共监视,在这些情形中,需要对资源有限的边缘装置进行检测。在本文中,我们提议建立ACDnet,即针对实时边缘计算机的精密行动探测网,既能提高效率,又能准确性。它明智地利用连续的视频框架之间的时间一致性,以近似其CNN特征,而不是天真地提取这些特征。它还结合了过去视频框架的记忆特征汇总,以提高当前的检测稳定性,隐含长期模拟的长时间提示。在公共基准数据集UCFCFC-24和JHMDB-21上进行的实验表明,在与SSD70探测器结合时,ACDnet能够稳健地在实时(75PSA-AFPS-ADAx farstrial Flad)框架上进行更精确的探测。

1
下载
关闭预览

相关内容

专知会员服务
61+阅读 · 2020年3月19日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关VIP内容
专知会员服务
61+阅读 · 2020年3月19日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
论文浅尝 | Improved Neural Relation Detection for KBQA
开放知识图谱
13+阅读 · 2018年1月21日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员