ACM MM 2020视频目标检测挑战赛冠军DeepBlueAI团队技术分享

2020 年 10 月 16 日 PaperWeekly

©PaperWeekly 原创 · 作者｜罗志鹏

单位｜深兰北京AI研发中心

研究方向｜物体检测

ACM MM（ACM International Conference on Multimedia, 国际多媒体会议）是 ACM 多媒体领域的顶级会议，涵盖多个新兴领域，致力于推动多媒体的研究和应用，包括但不限于图像，文本，音频，语音，音乐，传感器和社交数据。

自 1993 年首次召开以来，ACM MM 每年召开一次，ACM MM 2020 会议于 10 月 12 日至 16 日在美国西雅图举办。来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队斩获了视频目标检测赛道的冠军，我们可以通过这篇文章来了解一下 DeepBlueAI 团队的解决方案。

赛题介绍

尽管计算机视觉的最新进展有效地提高了多媒体系统的性能，但仍然不能明确回答一个核心问题：机器是否理解视频中发生的事情，分析结果是否可以被人类用户解释？为了推动上述问题的研究，新加坡国立大学推出 VidOR 数据集。

该数据集包含 10,000 个从 YFCC100M [2] 数据集中筛选的视频（98.6小时），数据集包含 80 个类别的目标（例如，成人，狗，玩具）和 50 个类别的关系（例如，旁边，观看，保持）标注。同时举办 Video Relation Understanding [1] 竞赛，本次竞赛同时是 ACM Multimedia 2020 Grand Challenge 中的竞赛任务。

视频目标检测（Video Relation Understanding: Video Object Detection）作为基于 VidOR 数据集的竞赛任务。要求参与者开发鲁棒的目标检测器，该检测器需要不仅可以在每个视频帧中使用检测框定位目标，还需要将指示同一目标实体的检测框链接到轨迹中。

这将帮助机器在视频级别理解目标实体的身份和动态，还可以使需要细粒度视频理解的许多应用程序受益。

评测指标

在评测指标中包含目标检测与轨迹生成两部分。在检测部分，主办方采用、、指标。在轨迹生成部分主办方采用 mAP 的评价指标，定义如下：

其中分别代表预测轨迹与真实标注轨迹信息。当预测轨迹与真实轨迹时间重叠部分大于 0.5 时被判定为真阳性预测，然后再分别采用三种不同的目标检测 AP 指标评测预测轨迹中帧级别的检测质量，并将三种指标的均值作为最终的得分。

赛题难点

1. 检测器需要重新识别视频中消失重现的目标。

2. 摄像机可以自由移动，存在剧烈抖动的问题。

3. 视频分辨率较低，存在照明、模糊、物体外形变化的问题。

4. 需要识别的目标类别多及目标类别不均衡的问题。

5. 很多标注信息非人工标注，导致标注信息不准确。

解决方案

经过任务分析，我们最终采用了目标检测+多目标跟踪的解决思路。包含检测器设计，深度度量学习算法设计与多目标跟踪算法实现三部分。

Detector：

在检测部分，我们采用 Cascade Rcnn [3] 作为我们的 baseline，并设计添加 FPN [5] 结构与采用 Guided anchoring [6] 用于生成高质量的 Anchor，为了进一步提升性能，我们在 backbone 中引入可变性卷积 [4] 。

为了训练检测器，我们对比在所有视频和只在有人工标注信息的视频中抽取帧制作训练集与验证集。实验结果如下：

数据集		mAP(%)
所有视频		25.9
人工标注视频		27.3

Metric learning:

为了解决遮挡，消失重现时再识别的问题。我们基于 Ranked list [7] 损失设计了新的 Metric learning 损失函数以保证较好的类间区分能力及特征稳定性。主要改进点为：

1. 图像对约束中为负样本对设置优化目标为归一化向量之间的最大距离。

2. 在负样本损失中为负样本根据距离值添加指数权重，以利用更多困难负样本信息。

最后将 SoftMax 损失与设计的 Metric learning 损失结合作为最终的损失函数。

为了训练深度度量学习模型，我们从每个目标轨迹中采样 16 个样本图像，并按照 7:2:1的比例划分 Train, Gallery, Query 数据集。然后分别采用 ResNet50 与 IBNNet-A-50 [8] 进行实验。为了证明所提出损失的有效性，同时在行人重识别数据集上与 SoftMax 及 Triplet loss 进行对比。实验表明，提出的损失函数可以取得较好的表现。

Multi-Class Multi-Object Tracking:

为了得到每个目标的轨迹，以实现视频目标检测任务。基于设计的检测器及Metric learning损失训练的再识别模型，我们设计了二阶段的多目标跟踪算法。

第一阶段：结合卡尔曼运动模型及再识别时目标的外观相似性，获取每个目标所形成的一些轨迹段，并采用线性插值填补缺失的检测。

第二阶段：根据每个轨迹段的类别，不同轨迹段之间时间重叠，外观相似性等信息进行轨迹段合并以得到每个目标的完整轨迹。

总结

在本次比赛中，我们对低分辨率，复杂场景下的视频目标检测问题进行了探索，设计了一个简单的目标检测，外观特征提取，多类别、多目标跟踪的系统。在视频目标检测任务中取得了相对较好的表现。

参考文献

[1] Video Relation Understanding - ACMM2020 Grand Challenge

[2] Thomee B , Shamma D A , Friedland G , et al. YFCC100M: The New Data in Multimedia Research[J]. 2015.

[3] Zhaowei Cai and Nuno Vasconcelos. 2017. Cascade R-CNN: Delving into High Quality Object Detection. (2017).

[4] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. 2017. Deformable Convolutional Networks. (2017).

[5] Tsung Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, and Serge Belongie. 2016. Feature Pyramid Networks for Object Detection. (2016).

[6] Jiaqi Wang, Kai Chen, Shuo Yang, Chen Change Loy, and Dahua Lin. 2019. Region Proposal by Guided Anchoring. (2019).

[7] Wang, Xinshao, et al. "Ranked list loss for deep metric learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[8] Pan, Xingang, et al. "Two at once: Enhancing learning and generalization capacities via ibn-net." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

[9] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015.

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

相关内容

ACM MM

关注 5

ACM 国际多媒体会议（ACM International Conference on Multimedia）是计算机科学领域中多媒体领域的首要国际会议。多媒体研究的重点是整合不同数字形式（包括图像，文本，视频，音乐，传感器数据，口头音频）提供的多种视角。自1993年以来，ACM多媒体一直将学术界和工业界的研究人员和从业人员汇聚在一起，提出创新的研究成果并讨论最新进展。会议的一个特别部分是艺术计划，该计划探索计算机科学与艺术的界限。官网地址：http://dblp.uni-trier.de/db/conf/mm/

【ACMMM2020】小规模行人检测的自模拟学习

专知会员服务

15+阅读 · 2020年9月25日

【ACMMM2020】条件推理的医学视觉问答

专知会员服务

39+阅读 · 2020年9月9日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日