目标检测实用中可以改进的方向

2019 年 5 月 4 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

作者 | Captain Jack

来源 | https://zhuanlan.zhihu.com/p/61038218

根据目前手头上的工作整理的一份清单，主要是自己的工作过程中，感觉到需要改进或者比较关注的问题，可能和一般的目标检测的研发不太一致，更多的还是些杂七杂八的点。

连续帧检测

一般的训练和评估都是针对单帧图像的，然而，实际应用中，很多都是针对连续帧（或者相近帧）的检测。

在连续帧检测上，即使在观感上，就会比较明显的感觉到不如单帧检测。

现象主要是以下：

目标不能连续检出，造成检测框的闪烁
偶尔的误识别
检测框的偶尔跳变和漂移

以上就是连续两帧的图像，用COCO数据的模型。直接把没有处理的裸结果显示出来的话，观感上就非常明显了。

当然，这些都可以在工程上用一些方法来平滑掉。

但是，训练时，怎样让模型可以在连续帧上获得一个平滑的预测？包括检测框本身更加稳定的预测。

小目标、远距离检测

部分应用场景上，对识别距离是有一定的要求的，也就是对微小目标的识别。一般来说，这个需求比较小众，只有一些特殊的应用场景上需要。比如，高速上的目标识别。

在有些要求更高的场合，还需要与摄像头硬件结合，这样可以支持更远距离的目标识别。比如图森的一千米识别。

泛化性能

主要是训练和应用场景的差别，毕竟，实际应用是不可能挑场景的。比如：车内物体的玻璃反光、部分数据集不包含的城市、光线变化（特别是图片局部区域光照反常）。

还有一个就是尺度变化问题，实际应用中，一般都是类别相对少一点，但是尺度变化范围很大。可能从十几个像素，一直到填满整个图片。算力不愁的话，大不了就是多尺度预测，resize好几个分辨率，都塞模型跑一遍。实际应用，哪有这份闲算力，多尺度预测的条件在应用上不是总能满足。

算力节省

一些在线的预测任务，给模型的算力空间是很小的。要求实时处理的话，那么一般就是20-30FPS的预测速度。即使主流的单阶段模型，预测速度也都是在旗舰GPU上的运行。

比如车载平台的话，功率都是受限的，然而一份功率一份算力。离线的运算还可以增加batch size提升利用率，在线的都是一张张图片，实际GPU利用率也是有折扣的。

不考虑工程上的方法，只能在backbone和检测方法的head里面做工作。

难检目标

各种难度比较大的目标：

局部和遮挡：局部的目标可能会出现不检出或者检测框不准的问题
模糊和噪点：运动模糊、光线不足下的摄像头噪点等等
成组：成组目标会误导检测框的回归。成组目标非常容易出现检测框不准的问题，比如，漂移、整组一个检测框

数据问题

当然，这个是永远待解决的问题，因为数据永远都不够。不多说。

同时，另外一个问题是，实际场景中有些特例就是非常少，甚至采集还得看老天的意思。这个不论是通过数据增强，还是通过模型的改进，目前看来也只能说是修修补补。

多任务与多传感器

多任务的融合，比如：组合分割任务（Mask-RCNN）、场景属性预测

多任务中也可以提供更加精细的结构化信息，比如，目标的运动趋势、目标的多属性的预测、3D box、目标距离。

传感器的融合，比如：双目、雷达点云、深度信息、毫米波。这些都需要硬件标定和传感器数据匹配，基本都是一台设备一次标定，也少不了体力活。

*延伸阅读

点击左下角“阅读原文”，即可申请加入极市目标跟踪、目标检测、工业检测、人脸方向、视觉竞赛等技术交流群，更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~

△长按关注极市平台

觉得有用麻烦给个在看啦~

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

最新《多任务学习》综述，39页pdf

专知会员服务

266+阅读 · 2020年7月10日

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

专知会员服务

59+阅读 · 2020年7月7日

【CVPR2020】通过获取高质量的关键点对来提升目标检测性能

专知会员服务

44+阅读 · 2020年6月30日

最新《深度多任务学习》综述论文，22页pdf109篇文献概述MTL最新进展

专知会员服务

119+阅读 · 2020年6月13日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

【西安交大】深度学习目标检测方法综述

专知会员服务

164+阅读 · 2020年4月21日

专知会员服务

106+阅读 · 2020年4月9日

八篇 ICCV 2019 【图神经网络（GNN）+CV】相关论文

专知会员服务

30+阅读 · 2020年1月10日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

小目标检测相关技巧总结

极市平台

28+阅读 · 2019年8月15日

一种小目标检测中有效的数据增强方法

极市平台

119+阅读 · 2019年3月23日

CVPR2019目标检测方法进展综述

极市平台

45+阅读 · 2019年3月20日

目标检测论文阅读：DetNet

极市平台

9+阅读 · 2019年1月28日

【机器视觉】计算机视觉技术在无人驾驶中的目标检测、图像识别的未来：机遇与挑战并存

产业智能官

5+阅读 · 2019年1月12日

目标检测领域还有什么可做的？19个方向给你建议

极市平台

13+阅读 · 2019年1月8日

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

计算机视觉方向简介 | 目标检测最新进展总结与展望

计算机视觉life

9+阅读 · 2018年10月28日

进击的YOLOv3，目标检测网络的巅峰之作 | 内附实景大片

PaperWeekly

4+阅读 · 2018年5月11日

目标检测也就是这么简单

计算机视觉战队

11+阅读 · 2017年10月20日

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

Arxiv

4+阅读 · 2019年4月15日

Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving

Arxiv

6+阅读 · 2019年4月9日

Progressive Pose Attention Transfer for Person Image Generation

Arxiv

5+阅读 · 2019年4月9日

Augmentation for small object detection

Arxiv

13+阅读 · 2019年2月19日

Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection

Arxiv

4+阅读 · 2018年9月23日

Improving Online Multiple Object tracking with Deep Metric Learning

Arxiv

7+阅读 · 2018年6月20日

Object detection at 200 Frames Per Second

Arxiv

5+阅读 · 2018年5月16日

YOLOv3: An Incremental Improvement

Arxiv

8+阅读 · 2018年4月8日

Large-Scale Object Discovery and Detector Adaptation from Unlabeled Video

Arxiv

3+阅读 · 2017年12月23日

VIP会员

目标检测实用中可以改进的方向

连续帧检测

小目标、远距离检测

泛化性能

算力节省

难检目标

数据问题

多任务与多传感器

目标检测领域还有什么可做的？19个方向给你建议

目标检测：Anchor-Free时代

基于深度学习的目标检测算法近5年发展历史（综述）

相关内容

知识荟萃

更多