We address the problem of detecting objects in videos with the interest in exploring temporal contexts. Our core idea is to link objects in the short and long ranges for improving the classification quality. Our approach first proposes a set of candidate spatio-temporal cuboids, each of which serves as a container associating the object across short range frames, for a short video segment. It then regresses the precise box locations in each frame over each cuboid proposal, yielding a tubelet with a single classification score which is aggregated from the scores of the boxes in the tubelet. Third, we extend the non-maximum suppression algorithm to remove spatially-overlapping tubelets in the short segment, avoiding tubelets broken by the frame-wise NMS. Finally, we link the tubelets across temporally-overlapping short segments over the whole video, in order to boost the classification scores for positive detections by aggregating the scores in the linked tubelets. Experiments on the ImageNet VID dataset shows that our approach achieves the state-of-the-art performance.


翻译:我们处理在视频中探测对象的问题,并有兴趣探索时间背景。 我们的核心想法是将短距离和长距离的天体连接起来,以提高分类质量。 我们的方法首先提出一组候选的时空幼崽, 每种幼崽都可以作为短距离框架天体连接的容器, 用于一个短视频段。 然后, 将每个幼崽提案的每个框架的精确框位置反转, 产生一个划线, 从管子框的分数中得出一个单一的分类分数。 第三, 我们扩大非最大抑制算法, 以删除短段空间重叠的管子, 避免框架型NMS打破的管子。 最后, 我们将管子连接到整个视频上, 以便通过汇总链接的管子的分数, 提高正确检测的分类分数。 在图像网VID数据集上进行的实验显示, 我们的方法达到了最先进的性能。

6
下载
关闭预览

相关内容

TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
8+阅读 · 2018年4月12日
VIP会员
相关VIP内容
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
相关资讯
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
相关论文
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
8+阅读 · 2018年4月12日
Top
微信扫码咨询专知VIP会员