We study video crowd counting, which is to estimate the number of objects (people in this paper) in all the frames of a video sequence. Previous work on crowd counting is mostly on still images. There has been little work on how to properly extract and take advantage of the spatial-temporal correlation between neighboring frames in both short and long ranges to achieve high estimation accuracy for a video sequence. In this work, we propose Monet, a novel and highly accurate motion-guided non-local spatial-temporal network for video crowd counting. Monet first takes people flow (motion information) as guidance to coarsely segment the regions of pixels where a person may be. Given these regions, Monet then uses a non-local spatial-temporal network to extract spatial-temporally both short and long-range contextual information. The whole network is finally trained end-to-end with a fused loss to generate a high-quality density map. Noting the scarcity and low quality (in terms of resolution and scene diversity) of the publicly available video crowd datasets, we have collected and built a large-scale video crowd counting datasets, VidCrowd, to contribute to the community. VidCrowd contains 9,000 frames of high resolution (2560 x 1440), with 1,150,239 head annotations captured in different scenes, crowd density and lighting in two cities. We have conducted extensive experiments on the challenging VideoCrowd and two public video crowd counting datasets: UCSD and Mall. Our approach achieves substantially better performance in terms of MAE and MSE as compared with other state-of-the-art approaches.


翻译:我们研究视频人群计数, 目的是估算视频序列所有框架的天体数( 本文中的人) 。 先前关于人群计数的工作大多是在静止图像上进行 。 在如何正确提取和利用短距离和长距离相邻框架之间的空间时空相关性以达到视频序列的高估精度方面, 几乎没有做任何工作。 在这项工作中, 我们提出一个新颖和高度精确的运动引导非本地空间时空网络, 用于视频人群计数。 Monet 首先将人流( 动作信息) 用作人流( 动作信息) 的指南, 指导可能存在一个人的像素区域。 鉴于这些区域, Monet然后使用一个非本地空间时空网络来提取短距离和长距离的相邻框架之间的空间时空相关性关系。 整个网络最终经过培训, 以精密损失来生成高质量的密度地图。 注意到公开提供的视频人群数据集的稀缺性和低质量( 解析和场多样性), 我们收集并构建了大型视频群流群段部分, 将高比例的图像标值标值标值, 。

0
下载
关闭预览

相关内容

MONET:Mobile Networks & Applications。 Explanation:移动网络与应用。 Publisher:Springer。 SIT:Mobile Networks & Applications
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
【泡泡一分钟】SfM-Net:从视频中学习结构和运动
泡泡机器人SLAM
9+阅读 · 2018年5月29日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
Arxiv
8+阅读 · 2021年2月1日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关VIP内容
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
Top
微信扫码咨询专知VIP会员