论文题目:Siamese Network with Interactive Transformer for Video Object Segmentation
作者:Meng Lan, Jing Zhang, Fengxiang He, Lefei Zhang
指导教师:张乐飞教授
论文概述:在半监督视频目标分割中如何高效的学习和利用过去帧中目标的时空特征对于当前帧目标的分割至关重要。本文提出了一个新颖的基于交互式transformer和暹罗网络的视频目标分割框架SITVOS,交互式transformer以暹罗网路提取的当前帧和过去帧的特征作为输入,分别通过自注意力机制和互注意力机制对目标特征表达进行增强,并实现时序目标特征信息向当前帧的传播,实现对当前帧指定目标的特征增强,最后通过一个解码器完成指定目标的分割。相比于之前的基于匹配的方法,我们采用的暹罗网络在维护memory bank时可以实现特征复用,提高模型的效率。SITVOS在三个标准测试集上都达到了SOTA的性能。