训练集是一个T帧的序列,提供了一系列轨迹每个轨迹都包含所属类,背景,框和分割的分数。作者使用了四种损失的混合:
从名称就可以看出,这四个损失分别反映了网络预测正确类的分数,网络正确地重估(reweighting)分割结果,网络初始化后正确地将检测结果分配给相应的轨迹,网络正确地初始化新轨迹。
构建这些损失函数的第一步,是确定每一个检测结果是否与标注的目标相匹配,如果是,则要确定是哪一个。如果一个检测结果与一个标注目标相匹配,那么它们的边界框至少有0.5个交集(intersection)重叠在并集(union)之上(即交并比IoU
≥
0.5)。如果多个检测结果匹配到了同一个标注目标,就将标注分配给最佳匹配的检测结果,并将其余的检测结果标记为负样本。作者对每一帧都重复这个过程,之后所有的检测结果都被标记为背景或其中一个标注。接下来再为每个轨迹分配一个标注。在推理过程中,首先标记初始化轨迹的检测结果。然后再给轨迹赋予与初始化它的检测结果相同的标注。
接下来,开始定义损失函数。对于每个轨迹,检查它是否被标记为背景或其标注身份的类,并使用应用交叉熵损失函数
。作者发现,在某些情况下,他很难初步评估轨迹,因此,在序列上的归一化加权,要给后面的的帧更高的权重。接下来将标注实例分割结果的索引映射到我们的轨迹ID,使用Lovasz损失函数。这使得网络通过重新加权分割结果的分数来处理多个分配到同一个像素的轨迹的情况。我们将二元交叉熵(BCE)损失
和
用于预测的轨迹-检测结果匹配的概率和轨迹的初始化概率。如果一个检测结果被匹配到一个还没有轨迹的标注,那么该检测结果应该初始化一个新的轨迹。我们将这些损失函数与batchsize和序列长度进行归一化,但不与数量或轨迹或检测(the number or tracks or detections,这里翻译一脸懵逼)进行归一化。因此,属于假阳性的检测结果或轨迹不会像其他轨迹或检测结果那样会减少损失。
(这个也不细讲了)
作者引入了一种新的学习方法和一个直观、灵活的视频实例分割模型,该模型以视频实例分割方法产生的检测结果为输入,逐帧进行学习,并逐步形成轨迹。它将检测结果分配给现有的轨迹,或者初始化新的轨迹,并更新现有轨迹的类别和置信度。作者通过定性和定量实验证明了该模型可以学习创建精确的轨迹,并通过消解实验(ablation experiments,是不是应该翻译成解耦实验)对其各方面进行了分析。
作者还在附录里提供了网络结构和伪代码,虽然论文代码还未开源,但是可以在这里稍微了解一下网络的工作原理。
-end-