AAAI2020 | 商汤科技提出OIM:新弱监督目标检测框架

2020 年 2 月 8 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

作者 | 商汤科技
编辑 | 贾伟
本文转载自:AI科技评论

本文介绍商汤科技在AAAI 2020 上的论文《Object Instance Mining for Weakly Supervised Object Detection》。

他们在这篇工作中提出了一种端到端的物体实例挖掘弱监督目标检测框架,引入了基于空间图及外观图的信息传播机制,在网络迭代学习过程中,尝试挖掘每张图像中全部的物体实例。除此之外,还引入了物体实例权重调整损失函数(reweighted loss),使网络可以同时学习到更完整的物体实例,从而让弱监督目标检测方法得到更加准确的检测框。

文地址 :https://arxiv.org/pdf/2002.01087.pdf  
 
目标检测是计算机视觉领域长期关注的问题,在自动驾驶、图像理解、视频监控等领域都有着广泛的应用。然而基于深度学习技术的目标检测器在网络训练中需要大量精确标注的物体边界框,这些耗时耗力的标注工作阻碍了该技术在实际产品中的快速和广泛应用,同时大量的人工标注也大大提高了产品成本。

为了解决这个局限性,仅使用图片级别标注(既标注仅包含图片中物体的类别)的弱监督目标检测技术在近几年受到了广泛的关注和研究,具有重要的意义。
 
现有的弱监督目标检测方法大多数是基于多实例学习框架的,对于每个物体类别,基于多实例学习框架的方法倾向于学习图像中该类中特征最明显的物体,并对于每张图片选取得分最大的一个物体框进行训练,其他被忽略的物体实例容易使学习网络陷入局部最优,进而影响弱监督目标检测的性能。
 
本论文提出了一种端到端的物体实例挖掘(Object Instance Mining,OIM)弱监督目标检测框架。该框架引入了基于空间图(Spatial Graph)及外观图(Appearance Graph)的信息传播机制,在网络迭代学习过程中,尝试挖掘每张图像中全部的物体实例。这样使得在基于多实例学习方法的网络学习过程中,特征不够显著的物体实例可以被检测到并加入训练,进而提升特征的表达能力和鲁棒性。

除此之外,商汤科技视频大数据团队还引入了物体实例权重调整损失函数(reweighted loss),使网络可以同时学习到更完整的物体实例,从而让弱监督目标检测方法得到更加准确的检测框。基于物体实例挖掘(OIM)弱监督目标检测框架结构如下图所示:
 

物体实例挖掘(OIM)弱监督目标检测框架。
 
该框架主要由多实例检测(Multiple Instance Detection)及目标实例挖掘(Object Instance Mining)两个部分构成。在网络训练迭代过程中,论文先使用多实例检测预测每个候选区域的类别,之后基于检测的输出及候选区域的特征,通过建立空间图及外观图尽可能挖掘图像中的全部物体实例,并将它们加入训练。其中物体实例挖掘过程如下图所示:
物体实例挖掘过程示例
 
在网络训练迭代过程中,在一幅图中,首先学习/检测到最具辨识力的物体实例,基于此实例通过位置关系,既其他候选框与此实例的重叠关系,建立空间图(Spatial Graph),如图(a)。之后基于此实例,通过计算它与其他候选框之间的外观相似度,挖掘图片中可能属于同一类别的物体实例,建立外观图(Appearance Graph),针对每一个新挖掘到实例同样建立空间图,如图(b),(c)。以此步骤进行迭代训练,直到挖掘出图像中全部可能的物体实例加入训练如图(d)。
 
除此之外,由于在网络迭代学习过程中,尤其是对于非刚性物体实例,基于CNN的分类器学习到的最具辨识力的是物体实例的某个局部而不是整个物体的整体,,因此本论文设计了物体实例权重调整损失函数(reweighted loss), 以学习到更准确的物体检测框。团队提出对于不同的候选框应分配不同的权重,对于分类器置信度得分高的候选框分配较低的权重,反之对最高分候选框周围的候选框分配较高的权重,从而学习更完整的物体实例检测框。
 
团队在PASCAL VOC 2007训练集上进行了弱监督物体实例挖掘的过程的可视化,如下图所示(从左到右),随着网络的迭代学习,更多更准确的物体实例可以被检测出来并加入训练中。
 
 
团队使用 PASCAL VOC 2007及VOC 2012数据进行了测试,比较了物体实例挖掘(OIM)方法与其他相关弱监督检测方法效果。结果表明,弱监督物体实例挖掘方法在定位精确率以及检测准确率均达到或超过目前最先进的方法。

OIM与其他目前最先进的方法在PASCALVOC 2007 测试集上检测精确度的比较(AP) (%)

OIM与其他目前最先进的方法在PASCALVOC 2007训练验证集上定位精确度的比较 (CorLoc) (%)

OIM与其他目前最先进的方法在PASCALVOC 2012 验证集/测试集上检测精确度的比较(AP)(%)

OIM与其他目前最先进的方法在PASCALVOC 2012训练验证集上定位精确度的比较(CorLoc) (%)

推荐阅读


重磅!2020年AI算法岗求职群来了

吴恩达新书《机器学习训练秘籍》中文版来了(附PDF下载)


---End---

科研学术,寒假不打烊!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎加入CVer学术交流群。涉及图像分类、目标检测、图像分割、人脸检测&识别、目标跟踪、GANs、Re-ID、医学影像分析、姿态估计、OCR、SLAM、场景文字检测&识别、PyTorch和TensorFlow等方向。


扫码进群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
1

相关内容

大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
专知会员服务
155+阅读 · 2020年4月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
26+阅读 · 2020年4月1日
专知会员服务
41+阅读 · 2020年2月20日
ICCV 2019 | 精确的端到端的弱监督目标检测网络
AI科技评论
11+阅读 · 2019年12月9日
【泡泡图灵智库】基于有限姿态监督的单目三维重建
泡泡机器人SLAM
5+阅读 · 2019年9月6日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
37+阅读 · 2019年7月25日
CVPR 2019 Oral 论文解读 | 无监督域适应语义分割
AI科技评论
49+阅读 · 2019年5月29日
CVPR 2018 | 无监督语义分割之全卷积域适应网络
极市平台
8+阅读 · 2018年6月28日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
3+阅读 · 2018年3月5日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
大规模时间序列分析框架的研究与实现,计算机学报
专知会员服务
58+阅读 · 2020年7月13日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
专知会员服务
155+阅读 · 2020年4月21日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
26+阅读 · 2020年4月1日
专知会员服务
41+阅读 · 2020年2月20日
相关资讯
Top
微信扫码咨询专知VIP会员