会员服务 ·

CVPR 2019 | 实体零售场景下密集商品的精确探测

2019 年 5 月 23 日 PaperWeekly

作者丨孙明珊

学校丨哈尔滨工业大学（深圳）

研究方向丨目标检测

研究动机

在购物超市中，商品陈列区中摆放了密集而繁多的商品，它们大多是相同或极其相似的，并且位置十分靠近。当前主流的检测网络在这种场景下充满挑战，效果并不是很理想。

本文的精确物体检测就是在这种场景基于主流检测方法，提出了以下几个方面的改进：

提出 Soft-IoU 层进行 IoU 的预测；
引入一个基于 EM 算法的高斯混合聚类方法来解决探测重叠的问题；
制作了公开数据集 SKU-110K，并在相关的零售场景数据集中进行训练和测试，包括 SKU-110K, CARPK 和 PUCPR+。

其与 RetinaNet 的探测效果对比图如下所示：

其中红框表示 RetinaNet 效果，蓝色表示本文的方法，(c) 和 (d) 是 (a) 和 (b) 的放大图。

可见在这种场景下探测的主要难点在于怎么确认矩形框的结束和下一个并列矩形框的开始。可见 RetinaNet 中大多数矩形框是重叠的，而本文的方法个个分明，在精确密集检测中很有优势。

研究方法

Soft-IoU层预测IoU

在非密集场景中，NMS 可以解决矩形框的重叠。然而，在密集检测中，多个重叠的边界框通常会映像多个紧密排列的目标，其中许多目标获得了高分数。在这种情况下，NMS 不能区分重叠物体之间的缝隙，或者抑制物体的不完整检测。

为了解决此问题，我们需要针对每个预测框再额外预测一个 IoU，这是由一个在 RPN 后面添加的第三个全连接分支来完成，搭配二值交叉熵。其实，这与 IoU-net 的想法是一样的，既然零售场景中的密集检测关注交叠探测那么 IoU 就是一个很好的信息。其中 IoU 的损失函数如下所示：

那么训练 RPN 的 loss 就由三部分组成，如下式：

基于EM算法的去交叠

我们将原始的单个物体的探测转化为以一个以探测目标为中心的簇，首先假定来自神经网络输出的 N 个矩形框由一系列二维高斯核产生，其中矩形框的中心是高斯核的均值，方差用来衡量矩形框的长宽。将这一系列的高斯核叠加得到了混合高斯模型，其中 IoU 的占比决定了高斯混合模型中的混合系数。模型的概率密度如下式：

这样就可以将其看作一个热力图，将原始的探测问题转换成了基于热力图来判定每个像素与 ground truth 交叠的置信度，每个区域的权重就是高斯核的混合系数，可以由 Soft-IoU 层的预测结果进行衡量。

不相交的矩形框探测可以采用高斯混合模型进行聚类得到，那么什么是高斯混合聚类方法，此处简要说明一下：假定我们所有最终的矩形框都是由高斯混合模型生成的，那么我们只要根据数据推出混合模型的概率分布来就可以了，然后混合模型的 K 个组成部分就对应了 K 个簇，也就是 K 个矩形框。

因为我们的问题是需要将交叠的矩形框去重叠之后得到非交叠的部分，又因为聚类之后的簇中心代表的就是去重叠之后的矩形框中心（ground truth 的中心），那么我们的簇中心必定远小于网络直接生成的 N 个矩形框，也就是混合模型的高斯核个数 K 远小于网络产生的矩形框个数。那么我们需要找到这 K 个高斯核混合而成的概率分布：

用 KL 散度来度量两个矩形框的相似度：

而我们寻找的这个由 K 个高斯核混合的模型是为了最小化预测框和 ground truth 的 KL 散度，而解决该最小化问题我们采用了 EM 的思想。首先，E 步会将预测出来的每个矩形框对应到与其距离最近的簇中心如下式：

然后，M 步是重新估计模型的参数：

整个流程和 K-means 聚类差不多，聚类簇数目的选定采用层次聚类的结果，还会采用辅助手段进行验证：依据一张图片的像素面积去除以一件商品的像素面积，这种方法要求拍摄的距离固定以及商品的像素面积事先测定（感觉有点不智能啊！）：

除此之外，还有一个后处理步骤用于去除一些置信度较低但是和其它高斯核交叠率超阈值（也就是距离过近 KL 散度过小）的高斯核，所以实际最后得到的高斯核要小于 K，写为 K’。

为了获取最终的探测结果，我们将网络预测的矩形框中心点落在 K’ 个高斯核标准差以内的所有矩形框求均值作为该探测结果的中心。最后效果如下图：

构建SKU-110K标准数据集

基于商场中商品陈列区的目标检测数据集，主要是针对密集目标见检测和细粒度目标检测在零售行业的应用。

实验内容及分析

该方法是基于 RetinaNet，在 GPU 加速的情况下，添加 Soft-IoU 和 EM-Merger 的速度与基础模型差不多，具体时间如下表：

其 AP,MAE 和 RMSE 指标结果如下表：

在自己提出的数据集 SKU-110K 上探测效果对比图如下所示：

除此之外，在 CARPK 和 PUCPR+ 数据集上的 MAE 和 RMSE 的结果如下表所示：

总结

针对实体零售场景下密集商品的探测问题构建了一个相应场景的数据集，并且发现此场景下现有的探测模型具有以下问题：目标的密集性导致大量的边框由交叠，无法做到个个分明。

针对这个问题提出了两个方法来改进：增加 Soft-IoU 层来预测每个预测框与 ground truth 的 IoU，并且采用高斯核替代探测框的方式构建基于 EM 的高斯核聚类方法从而筛选重叠的探测框。

点击以下标题查看更多往期内容：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

登录查看更多

相关内容

高斯核

关注 0

【CVPR2020】通过获取高质量的关键点对来提升目标检测性能

专知会员服务

44+阅读 · 2020年6月30日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知会员服务

85+阅读 · 2020年6月9日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

44+阅读 · 2020年4月17日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

专知会员服务

38+阅读 · 2020年3月23日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

CVPR 2019：精确目标检测的不确定边界框回归

AI科技评论

13+阅读 · 2019年9月16日

自然场景文本检测技术综述（CTPN, SegLink, EAST）

极市平台

12+阅读 · 2019年7月30日

自然场景下的文字检测：从多方向迈向任意形状

人工智能前沿讲习班

8+阅读 · 2019年6月7日

论文盘点：CVPR 2019 - 文本检测专题

PaperWeekly

14+阅读 · 2019年5月31日

ECCV 2018 | Bi-box行人检测：‘行人遮挡’为几何？

极市平台

13+阅读 · 2018年9月30日

ECCV 2018 | OR-CNN行人检测：为‘遮挡’而生

极市平台

6+阅读 · 2018年9月21日

ECCV 2018 | 迈向完全可学习的物体检测器：可学习区域特征提取方法

微软研究院AI头条

6+阅读 · 2018年8月30日

CVPR 2018|Cascade R-CNN：向高精度目标检测器迈进

极市平台

10+阅读 · 2018年7月20日

Cascade R-CNN 论文笔记

统计学习与视觉计算组

8+阅读 · 2018年6月28日

CVPR 2018 | 华中科技大学提出多向文本检测方法：基于角定位与区域分割

机器之心

5+阅读 · 2018年3月1日

CornerNet-Lite: Efficient Keypoint Based Object Detection

Arxiv

3+阅读 · 2019年4月18日

DPOD: Dense 6D Pose Object Detector in RGB images

Arxiv

5+阅读 · 2019年2月28日

Fast and Accurate, Convolutional Neural Network Based Approach for Object Detection from UAV

Arxiv

4+阅读 · 2019年1月4日

On The Alignment Problem In Multi-Head Attention-Based Neural Machine Translation

Arxiv

3+阅读 · 2018年9月11日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

Fooling Vision and Language Models Despite Localization and Attention Mechanism

Arxiv

7+阅读 · 2018年4月6日

Fine-Grained Attention Mechanism for Neural Machine Translation

Arxiv

4+阅读 · 2018年4月3日

Interpretable Convolutional Neural Networks

Arxiv

22+阅读 · 2018年2月14日

An Attention-Based Word-Level Interaction Model: Relation Detection for Knowledge Base Question Answering

Arxiv

6+阅读 · 2018年1月30日

Towards Neural Phrase-based Machine Translation

Arxiv

4+阅读 · 2018年1月29日

VIP会员