【CVPR2021-视频目标分割篇】1、学习推荐帧用于交互式野外视频对象分割

【CVPR2021-视频目标分割篇】1、学习推荐帧用于交互式野外视频对象分割

标题:Learning to Recommend Frame for Interactive Video Object Segmentation in the Wild

类型:交互式视频目标分割

paperarxiv.org/pdf/2103.1039

代码github.com/svip-lab/IVO

视频目标分割任务的目的是在视频序列]中分割特定的目标,成本高昂。例如,标注DAVIS数据集每个视频帧中的一个物体就需要100秒。

为了减少人工标注的成本,文章提出了一种交互式视频目标分割任务,该任务希望在提供少量的人工监督信号来实现令人满意的分割结果。具体地,给定一个视频序列,用户首先选取能够最好表达待分割目标的其中一帧视频图像,并以涂鸦的方式标注该目标。随后,分割算法基于用户提供的初始涂鸦标注给出视频每帧的分割结果,用户通过在某一视频帧上绘制涂鸦来标记出算法分割错误的区域来提升算法的分割结果。【公z号:龙一的编程life】

现有的框架选取其中最差的视频帧来纠正分割结果,然而,用户很难从分割结果中准确地找出分割质量最差的一帧;况且,具有最差质量评价指标的视频帧,并不一定是对整体视频分割质量提升最有帮助的帧(见下图)。

本文将交互式视频目标分割中的关键帧选择问题建模为一个马尔可夫决策过程通过强化学习框架,让智能体学习如何推荐关键帧。完成学习的智能体可以自动判断出最有价值的视频关键帧,使得交互式视频目标分割在自然场景下更为可行。

Result

本文选取三个state-of-the-art的VOS算法(IPN、MANet和ATNet),在两个常用的视频目标分割数据集(DAVIS和YouTube-VOS)上验证了本文提出的模型。采用AUC指标评价,越大越好。

本文将学习到的智能体与人类标注者进行了对比。实验结果表明,本文提出的智能体在性能和注解时间都要优于人工标注者。

发布于 2021-08-27 21:06