Real-time and online action localization in a video is a critical yet highly challenging problem. Accurate action localization requires the utilization of both temporal and spatial information. Recent attempts achieve this by using computationally intensive 3D CNN architectures or highly redundant two-stream architectures with optical flow, making them both unsuitable for real-time, online applications. To accomplish activity localization under highly challenging real-time constraints, we propose utilizing fast and efficient key-point based bounding box prediction to spatially localize actions. We then introduce a tube-linking algorithm that maintains the continuity of action tubes temporally in the presence of occlusions. Further, we eliminate the need for a two-stream architecture by combining temporal and spatial information into a cascaded input to a single network, allowing the network to learn from both types of information. Temporal information is efficiently extracted using a structural similarity index map as opposed to computationally intensive optical flow. Despite the simplicity of our approach, our lightweight end-to-end architecture achieves state-of-the-art frame-mAP of 74.7% on the challenging UCF101-24 dataset, demonstrating a performance gain of 6.4% over the previous best online methods. We also achieve state-of-the-art video-mAP results compared to both online and offline methods. Moreover, our model achieves a frame rate of 41.8 FPS, which is a 10.7% improvement over contemporary real-time methods.


翻译:视频中的实时和在线动作本地化是一个至关重要但极具挑战性的问题。 准确的行动本地化需要同时利用时间和空间信息。 最近试图通过使用三维CNN结构或高度冗余的光流两流结构实现这一点的尝试。 最近试图通过使用三维CNN结构或高度冗余的光流双流结构实现这一点,使这两个结构都不适合实时在线应用程序。 为了在极具挑战性的实时限制下完成活动本地化,我们建议利用基于关键点的快速高效关键点约束框预测来空间本地化行动。 我们随后引入一个管链接算法,在具有挑战性的 UCFF. 101-24 数据集中暂时保持行动管的连续性。此外,我们通过将时间和空间信息合并成一个向单一网络的连锁输入来消除双流结构的必要性,使网络能够从这两种类型的信息中学习。 与计算密集的光流相比,通过结构相似指数图有效提取时间信息。 尽管我们的方法简单,但我们的轻量端端到终端结构实现了74.7 %的状态框架AP。 在具有挑战性的 UCFCFS- 101-24 格式的当代数据集中,也展示了比前6.44%取得最佳的在线成果。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
7+阅读 · 2021年6月21日
Arxiv
11+阅读 · 2019年4月15日
Joint Monocular 3D Vehicle Detection and Tracking
Arxiv
8+阅读 · 2018年12月2日
Arxiv
5+阅读 · 2018年5月16日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Top
微信扫码咨询专知VIP会员