大规模多标签目标检测新算法，改善多标签竞争问题｜CVPR 20 Oral

2020 年 5 月 17 日 极市平台

加入极市专业CV交流群，与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

来源｜商汤科技SenseTime

在CVPR 2020上，商汤搜索与决策团队与中科院自动化所合作，针对超大规模多标签目标检测任务，提出了有效的解决方案。该工作以真实世界中的通用检测任务为背景，分析了主要面临的痛点，在损失函数和采样方法上提出了创新，有效地改善了痛点并在量化指标上有显著提升。

背景及分析

在深度学习中，数据始终是至关重要的因素之一。随着硬件与算法的发展，在学术界和工业界，对数据规模的需求也越来越强。然而在大规模数据的场景下，出现了许多新的挑战，也使得算法的边界将产生新的定义。

本文以Open Images数据库为例来模拟真实世界下的超大规模检测，该数据库拥有170万训练图片，1240万框图并包含500个目标类别。在该场景下，我们分析了主要面临的痛点问题：

1. 显式多标签问题

与传统的单标签目标检测不同，真实世界下的物体往往具有多种标签类别，以图1(a,b)为例，目标可同时具有多种并列的标签类别，也可同时具有父子继承关系的多标签类别。

2. 隐式多标签问题

超大规模数据由于其规模，往往采用机器辅助人工的手段进行标注，在训练数据中会频繁出现漏标和混标的情况。以图1(c,d)为例，部分目标会出现缺失子类标签的情况，另一些易混淆类别的目标会随机性地互标。

3. 类别的长尾效应

在学术集中，训练数据的类别一般位置在较均衡的分布，然而在实际应用中，类别的分布呈现出严重的长尾效应。

多标签问题的解决方案

面对显示和隐式的多标签问题，检测中常用的softmax将导致多标签之间产生响应值的竞争。这种竞争不仅使得多标签的预测概率明显降低，还会导致训练过程中优化目标的方向错误。

反传梯度为：

针对以上观察，本文提出了concurrent-softmax，在训练和测试过程中，根据目标的多标签和类别的隐性依赖关系输出每种类别的概率值。该算法有效地解决了训练过程中的多标签优化难点，并改善了预测过程中多标签的竞争问题。

反传梯度为：

表1展示了concurrent-softmax与传统loss的结果对比，表2展示了concurrent-softmax在训练和测试时的效果。

长尾效应的解决方案

长尾效应的主要痛点主要在于部分类别出现频率过高，部分类别出现频率极低，天然采样方法从而导致检测器对稀少类欠拟合。典型的解决方案是均匀采样法，即每种类别图片的采样频率一致，然而此举将导致对稀少类的严重过拟合，且高频类别中大量的训练数据无法被采样到，导致高频类的训练也不充分。本文提出了混合采样和混合训练法以渐进式地逐步改善以上两个问题。

首先，我们以天然采样为基础，设计了混合采样方式，其中天然采样方式下的单类采样频率为：

该采样方式能有效的增加稀少类的采样频率并缓解过拟合。表3展示了混合采样方式在性能上的明显提升，图2，3分别展示了不同平滑稀疏下采样方式对高频和低频类的单类精度影响。

其次，我们采用混合训练方式，即用天然采样方法预训练模型，并采用混合采样方式微调模型，保证了高频类的每个样本都被采样过，保证了对高频类的充分学习。表4展示了混合训练方式带来的精度收益。

结语

该文章对真实场景下的大规模多标签目标检测问题做了较为全面的分析，并提出了有效可靠的解决方案，为未来类似场景下研究提供了一定的经验和思路。

推荐阅读：

如何显著提升小目标检测精度？深度解读Stitcher：简洁实用、高效涨点

小目标检测相关技巧总结

目标检测算法优化技巧：Bag of Freebies for Training Object Detection

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：AI移动应用-小极-北大-深圳），即可申请加入AI移动应用极市技术交流群，更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流，一起来让思想之光照的更远吧~