In this paper, we analyze failure cases of state-of-the-art detectors and observe that most hard false positives result from classification instead of localization and they have a large negative impact on the performance of object detectors. We conjecture there are three factors: (1) Shared feature representation is not optimal due to the mismatched goals of feature learning for classification and localization; (2) multi-task learning helps, yet optimization of the multi-task loss may result in sub-optimal for individual tasks; (3) large receptive field for different scales leads to redundant context information for small objects. We demonstrate the potential of detector classification power by a simple, effective, and widely-applicable Decoupled Classification Refinement (DCR) network. In particular, DCR places a separate classification network in parallel with the localization network (base detector). With ROI Pooling placed on the early stage of the classification network, we enforce an adaptive receptive field in DCR. During training, DCR samples hard false positives from the base detector and trains a strong classifier to refine classification results. During testing, DCR refines all boxes from the base detector. Experiments show competitive results on PASCAL VOC and COCO without any bells and whistles. Our codes are available at: https://github.com/bowenc0221/Decoupled-Classification-Refinement.


翻译:在本文中,我们分析最先进的探测器的失败案例,并观察到大多数硬假假阳因分类而不是本地化而产生,对物体探测器的性能产生很大的负面影响。我们推测有三个因素:(1) 由于为分类和本地化而进行特征学习的目标不匹配,共有特征代表不是最佳的;(2) 多任务学习有所帮助,然而,对多任务损失的优化可能导致个人任务的次优化;(3) 不同尺度的大可接受字段导致小型物体的冗余背景信息。我们通过一个简单、有效、广泛应用的脱couped分类精化(DCR)网络展示了探测器分类能力的潜力。特别是,DCR在本地化网络(基地探测器)的同时设置了一个单独的分类网络(基准探测器)不是最佳的;(2) 多任务学习,但多任务损失的优化可能导致个人任务的次优于最佳程度;(3) 不同尺度的大型可接受字段导致小型物体的冗余背景信息。我们通过一个简单、有效和可广泛应用的解析分类能力网络展示了探测器的分级能力。我们进行测试时,DCRCR精细化了所有基础检测的Dec-Decrudistring-Decing-Decublement-Cration-Crus 和ABrbors ARCrentors 。

0
下载
关闭预览

相关内容

[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
19+阅读 · 2019年10月9日
已删除
AI掘金志
7+阅读 · 2019年7月8日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Arxiv
11+阅读 · 2019年4月15日
Scale-Aware Trident Networks for Object Detection
Arxiv
4+阅读 · 2019年1月7日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
5+阅读 · 2016年12月29日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
19+阅读 · 2019年10月9日
相关资讯
已删除
AI掘金志
7+阅读 · 2019年7月8日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
相关论文
Arxiv
11+阅读 · 2019年4月15日
Scale-Aware Trident Networks for Object Detection
Arxiv
4+阅读 · 2019年1月7日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
5+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员