论文笔记｜使用递归GNN学习视频实例分割（一）

2022 年 1 月 28 日 图与推荐

最近看了一篇论文《Learning Video Instance Segmentation with Recurrent Graph Neural Networks》，来自Arxiv的preprint（暂时没找到论文的被收录的哪个会议）。因为毕设方向是使用图神经网络去解决图像/视频理解的非欧空间问题，于是最近开始阅读这个方向的内容。

现有的大多数视频实例分割方法是由多个模块组成，这些模块启发式地组合，以产生最终的输出。作者认为目前的一个挑战性的问题是：如何提出一个纯粹的基于学习的方法，而不只是对时序信息和视频实例分割所需的通用的轨迹处理（track management）去建模。

作者提出了一个新的学习方法，其中整个的视频实例分割是一个联合的模型。作者基于这个方法设计了一个可扩展的模型。在图神经网络的帮助下，会处理每一帧中所有可用的新信息。过去的信息也会被考虑并通过循环连接进行处理。

作者在论文中描述，他们的实验可以在超过25FPS的帧率下运行，优于目前的其他方法。

（论文翻译可能有不准确，小白继续学习中，求轻拍）

一、简介

视频实例分割是指从一组图像序列中同时检测、分割和跟踪对象实例的计算机视觉任务。与图像实例分割相比，其在时序这一因素上会有一些更多的挑战：由于存在其他特征类似的实例，在每一帧中继续保持正确的实例ID会变得困难；并且物体可能会受到遮挡、快速运动或外观变化等影响。此外，视频中还可能包括摄像机剧烈抖动和严重的背景干扰。

之前的工作从MOT、视频目标检测、视频实例分割等相关领域得到了启发，大多数方法都采用了MOT中流行的跟踪-检测方法。实例分割方法在每一帧中提供检测结果，每一个检测结果包括置信度、语义类（semantic class）和掩码。然后，任务被简化为从这些检测结果中形成轨迹（track）。给定一组已经初始化的轨迹，我们须确定每个检测结果是否属于现有的轨迹之一，是否为假阳性，或者是否应该初始化一个新的轨迹。现有的方法学习如何匹配检测对，然后依靠启发式的方法形成最终的输出，例如，初始化新的轨迹、预测置信度、删除轨迹和预测class memberships。

但是这种pipeline有两个明显的缺点：(一) 学习的模型不是很灵活，例如不能对所有检测结果进行全局推理，或者不能从时间维度上获取信息；(二) 模型的学习阶段不能对推理进行密切地（closely）建模，例如只利用成对的帧，或者忽略后续检测合并的阶段。这意味着该方法没有机会学习视频实例分割问题的所有信息。例如，该方法无法学习如何处理所利用的实例分割方法所犯的错误，例如对于一些轻量级的（个人觉得可能是样本太小导致训练不足）或者是具有挑战性（各种因素造成的处理难度高）的视频。

作者的贡献是：(i) 提出了一种新的训练方式，使我们能够以端到端的方式训练视频实例分割的模型。(ii) 我们提出了一个基于图神经网络和循环神经网络的适合且可行的模型。(iii)我们将实例外观以高斯分布建模，并引入了可学习的更新（update）公式。(iv) 我们在综合实验中对我们的方法进行了基准测试和有效性分析。我们的方法优于之前的近实时方法，在YouTube VIS数据集上的mAP相对地增加了9.0%。

二、相关工作

视频实例分割(VIS)问题最初是由Yang等人提出的，他们提出了几种简单且直接的方法来解决它。他们遵循跟踪-检测方法，首先应用实例分割方法在每一帧中提供检测结果，然后根据这些检测结果形成轨迹。他们对几种不同的匹配检测的方法进行了实验，例如视频目标分割方法的掩码传播（mask propagation）；使用MOT方法，其中图像帧的边界框是经过卡尔曼滤波的，目标是通过学习到的重识别机制来重新检测的；以及对实例特征外观描述子的相似性学习。

上面提到的方法都基于跟踪-检测方法，并尝试不同的方法改进底层实例分割方法或检测结果的关联。后者主要依靠启发式方法，且往往不能进行端到端训练。此外，对轨迹的评估步骤，即预测类（class）和置信度，很少受到关注，现有的方法中，是用多数票和平均操作计算的。Athar等人在《Stem-seg: Spatio-temporal embeddings for instance segmentation in videos》这篇论文中，提出了一种端到端可训练的方法，通过训练来预测实例中心热图和每个像素的嵌入（embedding）。从热图的强响应（strong responses）中构建出一条轨迹。该位置的嵌入与所有其他像素的嵌入相匹配，如果它们足够相似，则像素被分配到该轨道上。

作者提出的方法通过形成一个二元图并应用图神经网络将检测或特征点关联起来。这种方法的优点是神经网络可以同时对所有可用信息进行推理。和其他类似的工作不同，作者的工作同时利用图的边和节点信息进行推理：边来预测关联性，节点来预测类成员（class membership）和置信度（conﬁdence）。

三、方法

作者的工作的目的是可以训练一个能够初始化新轨迹，将检测与现有轨迹关联起来，并对现有轨迹进行评估的模型。作者提出的模型按因果关系（causally）工作，在每一帧中更新轨道以及初始化新的轨道。首先使用实例分割方法在每一帧中提供暂定的检测结果。这些检测结果与现有的轨迹一起被输入到一个GNN中。GNN评估所有可用的信息，并提供用于关联和评估的输出嵌入。这些输出嵌入在下一个step中进一步作为输入输入给GNN，允许GNN处理当前和之前的信息。

上图中描述了该方法。实例分割方法适用于每一帧，检测集与保存的轨迹的记忆（memory）一起，被构建成一个二向图。每个节点和每个边都用一个嵌入来表示。这些嵌入送由GNN处理，并直接用于预测指配（assignment）和轨迹的初始化。轨迹嵌入由类似LSTM的单元作进一步处理，并形成最终的轨迹嵌入。这些信息用于预测当前帧中的轨迹置信度和类成员资格（class membership），并通过循环连接将信息传播到下一个step。最后，从匹配的检测结果中为轨迹分配掩码和外观描述子。

1. 跟踪-检测方法

就像之前描述的那样，跟踪-检测方法的主要原理是：在每一帧中，作者让实例分割方法产生暂定的检测结果 $\{\delta_n\}_n$ 。每个检测结果都包含一个边界框，所属的类和背景的分类分数，以及一个外观向量。作者保存了一个之前看到的物体的记忆 $\{\tau_m\}_m$ ，通常被称为轨迹。我们的模型的目的是将现有的轨迹与检测结果联系起来，确定一个轨迹 $\tau_m$ 是否对应一个检测结果 $\delta_n$ 。此外，模型还需要确定一个检测结果 $\delta_n$ 是否应该被初始化一个新的轨迹。这里注意，一般情况下检测 $\{\delta_n\}_n$ 是有噪声的，正确地确定一个检测结果是否应该被初始化为一个新的轨道或许是完全不可能的。在这种情况下，我们也希望模型能够创建一条轨迹，随着时间的推移，随着更多信息的积累，重新评估该轨迹是否为真正的正样本轨迹。

现有的大多数方法都通过训练一个网络来提取外观描述子，将轨迹与检测结果关联起来。如果描述子对应于同一个目标，则被训练成相似的描述子，如果对应于不同的目标，则被训练成不相似的描述子。这种方法带来的问题是，对应于视觉和语义相似但实例不同的外观描述子，会被训练成不同的。在这种情况下，让外观描述符相似，而依靠比如空间信息，可能会更好。因此，网络在做出决定之前，应该评估所有可用信息。

进一步得到的信息可以从所考虑的轨迹检测对其他轨迹检测对中获得。孤立地确定一个轨迹检测对是否匹配可能是困难的，例如在杂乱的场景中或可见度很低的情况下。在这种情况下，实例分割方法可能会提供多个检测结果，这些检测结果在一定程度上都与同一个对象重复。另一种困难的场景是当有突然而剧烈的相机运动的情况，此时可能需要全局推理，以忽略空间相似性，或者区别对待。因此我们假设，网络同时推理所有的轨迹和检测结果是很重要的。

在决定一个检测结果是否应该被初始化一个新的轨道时，自然就可以这样做。检测结果与现有轨迹的匹配程度一定会影响到是否应该初始化新轨迹的决策。在现有的工作中，这个观察结果被实现为一个硬决策。也就是说，如果检测被分配到一个轨道上，它将不会初始化一个新的轨道，否则就会。作者避免了这种启发式，而是让网络同时推理将检测分配给轨道和初始化新的轨道。

让每个轨迹-检测结果对用一个 $D$ 维嵌入 $e_{mn} \in \mathbb{R}^D$ 表示。最初，它包含轨道 $\tau_m$ 和检测结果 $\delta_n$ 之间的相似性或相关信息。此外，让每个潜在的新轨迹用一个嵌入 $e_{0n} \in \mathbb{R}^D$ 表示。我们创建一个空轨迹嵌入 $\tau_0$ ，并将 $e_{0n}$ 初始化，其中包含检测结果 $\delta_n$ 的信息以及它与空轨迹 $\delta_0$ 的相似度。我们以对待其他轨迹的方式处理空轨迹，但它是用自己的权重集处理的。我们在之前的示意图中说明了元素 $\tau_m$ ， $\delta_n$ ，和 $e_{mn}$ 。检测结果嵌入 $\delta_n$ 用检测器提供的类的分数以及边界框进行初始化。轨迹嵌入 $\tau_m$ 是上一step中输出的最终轨迹嵌入。现在我们以可学习的方式在不同的嵌入之间传播信息。为此，我们使用层（layers）来执行更新，其形式为：

$e^+_{mn}=f^e([e_{mn},\tau_m,\delta_n])$ $\tau^+_m=f^\tau([\tau_m,\sum_jg^\tau(e_{mj})e_{mj}])$ $\delta^+_n=f^\delta([\delta_n,\sum_ig^\delta(e_{in})e_{in}])$ 这里， $f^e$ ， $f^\tau$ 和 $f^\delta$ 是线性层，后面加上ReLU激活函数， $g^\tau$ 和 $g^\delta$ 是多层感知器，最后跟上对数函数，[·,·]表示连接（concatenation）。这类层具有GNN块的结构， $\tau_m$ 和 $\delta_n$ 都是节点， $e_{mn}$ 是边。这些层允许嵌入之间进行信息交换。这些层与参考文献提到的结构略有偏差。首先，有两种类型的节点，并对它们使用两种不同的更新。其中前向和后向的传递使用两种不同的神经网络。其次，上式的后两个公式中，节点的积累使用了一个额外的门，允许节点动态地选择应该从哪些信息中积累。因为例如当且仅当跟踪和检测结果匹配良好时，类信息应该从检测结果传递到跟踪。作者通过堆叠GNN块来构建图神经网络。为了增加表现能力，作者将它们与标准的残差块交织在一起，其中不同图元（graph elements）之间没有信息交换。GNN将提供更新的边缘嵌入，它将检测结果与轨迹关联起来，更新的节点嵌入将用于对轨迹进行评估，并在下一帧中作为GNN的输入。

边缘嵌入 $e_{mn}$ 通过一个logistic模型来预测轨迹 $m$ 与检测结果 $n$ 匹配的概率，如果概率高，则认为它们匹配，轨迹将获得该检测结果的分割结果。新的轨迹也会以类似的方式进行初始化。边缘嵌入 $e_{0n}$ 通过另一个logistic模型来预测检测结果 $n$ 应该被初始化为新的轨迹的概率。如果概率超过了一个阈值，该检测的嵌入 $\delta_n$ 就会初始化一个新的轨迹。这个阈值被设置得很低，因为随着时间的推移，分数是下降的。

接下来详细介绍轨迹的分数评估步骤。

2. 轨迹评分

对于每条创建的轨迹，都会有一个置信度和一个类别预测（值）。它反映了我们对该轨迹是否为真的正值（true positive）的信任程度，随着时间的推移，它与类别预测一起更新，以获得更多信息。这就为模型提供了可以通过降低分数来有效地去除轨迹的选择。现有的一些方法是通过对被认为是对应于轨迹的检测结果的检测置信度进行平均来对轨迹进行评估的。类的预测是以多数票进行的。它的缺点是没有考虑到其他的可用信息，例如，我们对每个检测结果是否确实属于该轨迹的确定程度，或者检测结果的置信度。上一节介绍的GNN与下一节介绍的递归连接共同解决了这个问题。轨迹嵌入

\{\tau_m\}_m

通过GNN收集该帧产生的所有检测信息，并通过循环连接随着时间来积累这些信息。然后，我们根据每个轨迹的嵌入，通过一个多类别logistic回归模型（multinomial logistic model）预测其置信度和类别。

此外，这种方法还能得到每条轨迹的分割结果。每条轨迹都假定是由被认为与之匹配的检测结果所提供的分割结果。如果一条轨迹与多个检测结果相匹配，则选择最佳的作为匹配结果。另外，此方法只是得到每个像素的单个实例。因此在存在假阳性轨迹的情况下，我们需要对不同轨迹的分割结果进行重新加权。为此，我们将分割结果和相应轨迹的嵌入进行串联（concatenate），并通过一个两层卷积神经网络进行馈送（feed）。

3. 循环链接

为了处理目标轨迹，随着时间的推移来传播信息是至关重要的。作者提出通过循环连接来实现这一操作，它带来了端到端训练的好处。

然而，天真地添加循环连接，会导致训练变得极度不稳定，进而导致视频实例分割的效果不理想。即使有细致的权重初始化和低的学习率，都会出现激活和梯度的尖峰（spikes）。这是训练RNN时遇到的一个众所周知的问题，通常可以使用长短期记忆（LSTM）或门控递归单元（GRU）模块来解决。这些模块使用的是乘法的（multiplicative）sigmoid激活的门控系统，已经被反复地证明可以很好地对序列数据进行建模。

普通的LSTM有如下形式：

$z^t_i=[x^t_i,y^{t-1},i]$ $\alpha^{{\rm forget}}_i=\sigma(h^{\rm forget} (z^t_i))$ $\alpha^{{\rm input}}_i=\sigma(h^{\rm input} (z^t_i))$ $\alpha^{{\rm output}}_i=\sigma(h^{\rm output} (z^t_i))$ $\widetilde{c}^t_i=\tanh (h^{\rm cell}(z^t_i))$ $c^t_i=\alpha^{\rm forget}_i \odot c^{t-1}_i+\alpha^{\rm input}_i\odot \widetilde{c}^t_i$ $y^t_i=\alpha^{\rm output}_i\odot\tanh(c^t_i)$ 其中 $x^t_i$ ， $y^t_i$ 和 $c^t_i$ 分别为 $t$ step的输入、输出和元胞状态， $h^{\rm forget}$ ， $h^{\rm input}$ ， $h^{\rm output}$ 和 $h^{\rm cell}$ 分别为线性神经网络层。 $\odot$ 为元素乘积， $\tanh$ 为双曲正切， $\sigma$ 为logistic函数。

LSTM中循环连接的输出，作为下一个时间步骤的输入，使其能够模拟时间信息。它的门控系统减轻了激活函数的的梯度爆炸/消失问题。

作者对LSTM做了一些修正，将其与图网络联系在了一起。为了循环地将图网络的输出（特别是更新后的轨迹嵌入）作为下一个step的图网络的输入。作者将LSTM中的线性网络替换为图网络，并仍旧采用门控机制。作者将上面7个公式的后6个建立了一个映射 $L:z\to y$ ，并用下式更新轨迹嵌入：

$\{\widetilde{\tau}^t_m\}_m={\rm GNN}(\{\tau^{t-1}_m\}_m,\{\delta^{t}_n\}_n)$ $\tau^t_m=L(\widetilde{\tau}^t_m), \forall m$ ${\rm GNN}(\{\widetilde{\tau}^t_m\}_m)$ 输出的轨迹嵌入被输入到门控系统中，其输出被用作最终的轨迹嵌入 $\{\tau^t_m\}_m$ 。这些数据在下一个step中既被用作GNN的输入，也被用来对轨迹进行评估。

4. 模型外观

为了准确地匹配跟踪结果和检测结果，作者为每个被跟踪的目标创建了特定实例的外观模型。为此，作者添加了一个由几个卷积层组成的外观网络，并将其应用于主干ResNet的特征图。外观网络的输出与检测结果提供的掩码汇集在一起，从而得到每个检测的外观描述子。轨迹从检测结果中收集外观，并随着时间的推移构建该轨迹的外观模型。在匹配过程中，轨迹和检测结果之间的外观相似性将作为重要的附加线索。外观网络的目的是学习丰富的表征，使我们能够区分视觉或语义上相似的实例。

一开始作者曾尝试将外观信息直接集成到GNN中，但是效果并没有明显的提高。作者认为是因为不同问题的差异很大造成的。视频实例分割问题的变数相当大：考虑的场景和目标有很大的差异，与之相比，可用的标记训练序列相当少。相比之下，MOT通常是针对单一类型的场景或单一类别的目标，特征匹配的学习要比视频实例分割可用的训练实例多很多。

为了避开这个问题，作者将外观分开处理，并在各特征的通道中强制执行对称性（symmetry）。每个轨迹将其外观建模为一个具有对角协方差的多维

高斯分布。当轨道被初始化时，可以将初始化检测的外观向量作为均值 $\mu$ 和一个混合的协方差 $\Sigma$ 。我们通过轨迹检测的边，将外观信息反馈到GNN中。轨迹 $m$ 和检测结果 $n$ 之间的边是用给定轨迹的分布的检测外观的对数似然来初始化的。GNN在计算每个轨迹-检测对的匹配概率时，能够利用这些信息。之后，每个轨迹的外观 $(\mu,\Sigma)$ 用最佳匹配检测结果的外观 $x$ 进行更新。更新是基于共轭先验下高斯分布的贝叶斯更新。我们使用的是一个正态-逆-齐次（normal-inverse-chi-square）先验。

$\mu^+=\kappa x+(1-\kappa)\mu$ $\Sigma^+=\nu\widetilde\Sigma+(1-\nu)\Sigma+\frac{\kappa(1-\nu)}{\kappa+\nu}(x-\mu)^2$ 该项对应于样本方差，更新率 $\kappa$ 和 $\nu$ 通常是更新项中相对于先验强度的样本数。为了增加灵活性，作者根据轨迹嵌入来预测这些值，允许网络去学习一个好的更新策略。