视频物体分割算法：如何提升复杂场景的分割精度？

2019 年 12 月 20 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

本文作者：阿里巴巴资深算法专家任海兵

核心内容：

1. 视频物体分割的三个研究方向

2. 阿里文娱摩酷实验室在视频领域的最新应用

视频物体分割（Video Object Segmentation，简称VOS)，顾名思义就是从视频所有图像中把感兴趣的物体区域完整的分割出来。

为了方便理解，先给出一个我们的视频物体分割结果：

视频物体分割示例，分割得到的人体区域

视频物体分割是进行内容二次创作的重要素材 。例如目前火爆的“裸眼3D视频”，基于视频中主要物体与观众之间的距离，利用蒙皮遮挡的变化产生3D效果。其核心点是将前景物体从视频中分割出来，这部分会花费创作者99%以上的时间。

因此，对于优酷这样的视频类网站，视频物体分割是非常有价值的算法，能够赋能内容生产者，提升内容生产效率。特别是交互式视频物体分割算法，能利用用户少量交互，逐步提高视频物体分割正确率，提升用户观感体验。这是任何无监督视频物体分割算法所不能达到的。

目前，CV学术界在视频物体分割方面的研究主要分为三个方向 ：

半监督视频物体分割 (Semi-supervised video object segmentation)
交互式视频物体分割(Interactive video object segmentation)
无监督视频物体分割（Un-supervised video object segmentation）

这三个研究方向对应于Davis Challenge 2019 on Video Object Segmentation[1]中的三个赛道。其中，学术界更倾向于研究半监督视频物体分割，因为这是视频物体分割的最基础算法，也是比较纯粹的一个研究点。

接下来，我首选介绍视频物体分割的三个研究方向，然后结合优酷认知实验室的探索，分享在视频领域的最新应用。

一、半监督视频物体分割

半监督视频物体分割，又称为单一样本视频物体分割(one-shot video object segmentation, 简称OSVOS)。在半监督视频物体分割中，给定用户感兴趣物体在视频第一帧图片上的分割区域，算法来获取在后续帧上的物体分割区域。物体可以是一个，也可以是多个。在视频中，存在物体和背景运动变化、光照变化、物体旋转变化、遮挡等，因此半监督视频物体分割算法研究的重点是算法如何自适应获取变化的物体表观信息。

一个示例如下图所示：

图 1. 半监督视频物体分割示例。

在图1中，第一行为序列的RGB图片，第二行为感兴趣物体区域。其中（a）为视频第一帧图像，骆驼区域是给定物体的ground-truth。（b）(c)和 (d)是后续的第20、40和60帧，后续的图像只有RGB图片，需要算法去估计物体的区域。

该示例的难点是：(1) 前景背景颜色非常相似；（2）随着目标骆驼的运动，背景中出现一个新的骆驼，需要分割出这两个不同的骆驼区域。

目前半监督视频物体分割算法分为两大类：有在线学习、无在线学习。

基于在线学习的算法 ，根据第一帧物体的ground-truth，利用one-shot learning的策略来fine-tune分割模型。经典的在线学习算法包括Lucid datadreaming[2]，OSVOS[3]，PreMVOS[4]等。在线学习算法针对每个物体单独训练模型，可以达到很高的分割正确率。但是在线学习本身是深度学习模型的fine-tuning，需要耗费大量的计算时间。在2019年之前，在线学习算法是主流。今年出现了不少无在线学习的算法，它的模型是事先训练好的，不需要针对样本进行fine-tune，具有更好的时效性，例如CVPR2019 的FEELVOS[5]，Space-time memory network[6]等。

半监督视频物体分割的最主要的结果评估标准是平均Jaccard和F-measurement。平均Jaccard值是所有物体在所有帧上分割精度Jaccard的均值。F-measurement为分割区域边缘的准确度。半监督视频物体分割由于其需要第一帧物体区域的ground-truth，因此无法直接应用于实际应用。但它是交互式和无监督视频物体分割算法的核心组成部分。

二、交互式视频物体分割

交互式视频物体分割是从去年开始兴起的、更贴近实用的视频物体分割方法。在交互式视频物体分割中，输入不是第一帧物体的ground-truth，而是视频任意一帧中物体的用户交互信息。交互信息可以是物体boundingbox、物体区域的划线（scribble)、外边缘的极值点等。

基本流程如下图所示：

图 2. 交互式视频物体分割流程。

交互式视频物体分割通常分为5个步骤：

用户输入交互信息，标记感兴趣物体，例如物体的bounding box，scribble信息、边缘点等;
根据用户输入的交互信息，利用交互式图像物体分割算法分割出物体在该帧图像上的物体区域；
根据前一帧物体区域，利用半监督视频物体分割算法向视频其他帧图像逐帧传递，进行物体分割，得到所有帧图像上物体区域。然后，用户检查分割结果，在分割较差帧上，给出新的交互信息；
算法根据新的交互信息，修改该帧图像上的分割结果；
重复步骤3和4，直到视频物体分割结果让用户满意。

交互式视频物体分割 不是一个单一算法，而且多种算法有机融合的解决方案，包括交互式图像物体分割、半监督视频物体分割、交互式视频物体区域传递算法等。其主要评估方法为Davis Challenge on Video Object Segmentation中提出的Jaccard&F-measurement@60s(简称J&F@60s)和AUC（Area Under Curve，简称AUC)。

Davis竞赛提出限定8次用户交互，建立准确度随时间的变化曲线图，曲线下方区域的面积就是AUC，t=60s时刻曲线插值就是J&F@60s。

下图为一个J&F随时间变化曲线 ：

图 3. 交互式分割结果 J&F 曲线示例

从评估指标可以看出，交互式视频物体分割强调分割算法的时效性，不能让用户长时间等待。所以，在交互式视频物体分割中一般不采用基于在线学习方法的半监督视频物体分割算法。目前还没有交互式视频物体分割的开源代码。

但是交互式视频物体分割算法对工业界有非常重要的意义，其原因是：

1、半监督视频物体分割需要物体第一帧的ground-truth，实用中获取比较麻烦。而交互式视频物体分割只需要用户的简单交互，非常容易达到；

2、交互式视频物体分割可以通过多次交互，达到非常高的分割正确率。高精度的分割结果能够提供更好的用户体验，才是用户需要的结果。

三、无监督视频物体分割

无监督视频物体分割是全自动的视频物体，除了RGB视频，没有其他任何输入。其目的是分割出视频中显著性的物体区域。在上述三个方向中，无监督视频物体分割是最新的研究方向。

Davis 和 Youtube VOS 竞赛今年第一次出现无监督赛道。从算法层面上说，无监督视频物体分割需要增加显著性物体检测模块，其他核心算法没有变化。

半监督和交互式视频物体分割中，物体是事先指定的，不存在任何歧义。而在无监督视频物体分割中，物体显著性是主观概念，不同人之间存在一定的歧义。因此，在Davis VOS中，要求参赛者总共提供N个物体的视频分割结果（在Davis Unsupervised VOS 2019 中，N=20)，与数据集ground-truth标记的L个显著物体序列计算对应关系。对应上的物体和遗漏的物体参与计算J&F的均值。N个物体中多余的物体不做惩罚。

四、阿里文娱摩酷实验室的研究现状

目前很多半监督视频物体分割算法在学术上有很好的创新，但是实用中效果不佳。我们统计了今年CVPR的论文，在Davis 2017 val数据集上，没有一篇正会论文J&F>0.76。FEELVOS[5]、siamMask[7]等算法理论上有很好，实用中却存在多种问题。交互式视频物体分割更是没有开源代码。

所以，阿里文娱摩酷实验室从2019年3月底开始从事半监督和交互式视频物体分割算法的研究。

2019年5月，我们完成一版基础的半监督视频物体分割算法和交互式视频物体分割解决方案，并以此参加了DAVIS Challenge on Video Object Segmentation 2019，在交互式视频物体分割赛道获得第四名。

我们提出的VOS with robust tracking策略[8]，可以较大幅度的提高基础算法的鲁棒性。在Davis 2017验证集上，我们交互式视频物体分割算法J&F@60s准确率从3月底的0.353 提高到5月初的0.761。现在，我们的半监督视频物体分割算法也达到了J&F=0.763。可以说，在这个集合上我们的结果已经接近业界一流水准。

一些分割结果示例如下 ：

我们的交互式视频物体分割结果示例

五、阿里文娱摩酷实验室的后续计划

目前，我们在继续探索复杂场景下的算法应用，这些复杂场景包括小物体、前景背景高度相似、物体运动速度很快或表观变化很快、物体遮挡严重等。后续，我们计划在 online learning、space-time network、region proposal and verification 等策略上发力，以提高视频物体分割算法在复杂场景下的分割精度。

另外，图像物体分割算法、多目标物体跟踪算法也是视频物体分割算法的重要基础，我们也将在这些方面持续提升精度。

参考文献

[1] The 2019 DAVIS Challenge on VOS: Unsupervised Multi-ObjectSegmentation. S. Caelles, J. Pont-Tuset, F. Perazzi, A. Montes, K.-K. Maninis,and L. Van Gool .arXiv:1905.00737, 2019

[2] A. Khoreva, R. Benenson, E. Ilg, T. Brox, and B. Schiele. Lucid datadreaming for object tracking. In arXiv preprint arXiv: 1703.09554, 2017. 2

[3] S. Caelles, K.-K. Maninis, J. Pont-Tuset, L. Leal-Taix´e,D. Cremers,and L. Van Gool. One-shot video object segmentation. CVPR, 2017

[4] J. Luiten, P. Voigtlaender, and B. Leibe. PReMVOS:Proposal-generation, refinement and merging for video object segmentation.arXiv preprint arXiv:1807.09190, 2018.

[5] Paul Voigtlaender, Yuning Chai, Florian Schroff, Hartwig Adam, BastianLeibe, Liang-Chieh Chen. FEELVOS: Fast End-to-End Embedding Learning for VideoObject Segmentation. CVPR 2019

[6]. Seoung Wug Oh, Joon-Young Lee, Ning Xu, Seon Joo Kim.Fast User-GuidedVideo Object Segmentation by Interaction-and-Propagation Networks. CVPR2019

[7]. Wang, Qiang，Zhang, Li，Luca Bertinetto, Weiming Hu, Philip H.S. Torr.Fast Online ObjectTracking and Segmentation: A Unifying Approach. CVPR2019

[8] H. Ren, Y. Yang, X. Liu. Robust Multiple Object Mask Propagation withEfficient Object Tracking. The 2019 DAVIS Challenge on Video ObjectSegmentation - CVPR Workshops, 2019

-End-

*延伸阅读

CV细分方向交流群

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割、OCR、姿态估计等极市技术交流群（已经添加小助手的好友直接私信），更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~