ETH最新「深度学习视频分割」综述论文，260篇文献

摘要

视频分割，即将视频帧分割成多个片段或对象，在电影的视觉效果辅助、自动驾驶中的场景理解、视频会议中的虚拟背景创建等广泛的实际应用中起着至关重要的作用。最近，由于计算机视觉中的连接主义的复兴，出现了大量基于深度学习的方法，这些方法致力于视频分割，并提供了引人注目的性能。本文通过对视频中未知类别的一般目标分割和视频语义分割这两项研究的任务设置、背景概念、感知需求、发展历史和主要挑战的介绍，全面回顾了这两项研究的基本方向。我们还提供了一个详细的概述的代表性文献的方法和数据集。此外，我们在基准数据集上提出了评测方法的量化性能比较。最后，指出了该领域尚未解决的问题，并提出了进一步研究的机会。

引言

视频分割是机器视觉中一个基本的、具有挑战性的问题，它是识别视频场景中具有特定特征属性或语义值的目标集。由于其在广泛应用领域(如自动驾驶、机器人技术、自动监控、社交媒体、增强现实、电影产业、视频会议等)中的重要作用，它长期以来一直受到计算机视觉和图形界的广泛关注和积极研究。

视频分割在过去已经被用来解决各种传统的计算机视觉和机器学习技术，包括手工特征(例如，颜色，直方图统计，光流等)，启发式先验知识(例如，视觉注意力机制[1]，运动边界[2]等)，低/中级视觉表示(例如，超级体素[3]、轨迹[4]、对象proposal [5]等)，以及经典的机器学习模型(如聚类算法[6]、图模型[7]、随机漫步[8]、支持向量机[9]、随机决策森林[10]、马尔可夫随机场[11]、条件随机场[12]等)。近年来，随着深度神经网络的蓬勃发展，特别是全卷积网络(FCN)[13]的发展，视频分割取得了显著的进展。这些基于深度学习的视频分割算法在准确性和有时甚至效率方面大大超过了其他老方法，并继续提高技术水平。

随着这一领域的快速发展，出现了大量的新文献。然而，现有的综述大多是过时的(发表在现代深度学习时代之前)[14]、[15]，而且往往视野狭窄，即只关注前/背景视频分割[16]、[17]。该领域的不断变化和技术发展的快节奏给启动带来了困难。因此，由于视频分割设置的多样性和概念的模糊性，进行全面深入的综述是非常困难和费时的，但非常有必要和帮助。

为此，我们首先系统地介绍了视频分割的最新进展，从任务制定到分类，从算法到数据集，从尚未解决的问题到未来的研究方向。它涵盖了几个关键方面，包括任务类别(前景/背景分离vs语义分割)，处理模式(即自动、半自动和交互式)，学习范式(即监督、无监督和弱监督)，以及澄清混淆的术语(如背景减法、运动分割,等等)。我们希望这项综述可以为感兴趣的研究者提供一个全面的回顾，并促进对提出的开放问题的研究。

本文主要研究了视频分割的两个主要分支，即视频对象分割(图1(a-e))和视频语义分割(图1(f-h))的最新进展，并进一步划分为八个子领域。虽然我们将重点局限于基于深度学习的视频分割解决方案，但在这个快速发展的领域仍有数百篇论文发表，因此不太可能(幸运的是，也没有必要)对它们全部进行调研。相反，我们选择在著名期刊和会议上发表的有影响力的论文。因此，我们将引入一些非深度学习的视频分割模型和其他领域的相关文献，如视频对象检测和视觉跟踪，以提供必要的背景。

本文的研究进展如下。§2给出了分类学、术语、研究历史和相关研究领域的简要背景。§3和§4分别回顾了深度学习算法和视频分割数据集方面的代表性工作。§5进行性能评估和分析。此外，§6指出了一系列开放式问题和方向。最后，在§7中给出了结论。

成为VIP会员查看完整内容