CVPR2022 | 多模态Transformer用于视频分割效果惊艳

基于注意力的深度神经网络（DNN）在NLP和CV等不同领域的各种任务上都表现出了卓越的性能。这些进展使得此类网络（如 Transformer）成为解决多模态问题的有力候选。特别是近一两年，Transformer 模型已经开始在CV任务上大展手脚，从目标识别到检测，效果优于通用的CNN视觉骨干网络。

参考视频对象分割（referring video object segmentation, RVOS）任务涉及到给定视频帧中文本参考对象实例的分割。相比之下，在得到更广泛研究的参考图像分割（referring image segmention, RIS）任务中，对象主要通过它们的外观进行参考。在RVOS中，对象可以通过它们正在执行或参与的动作进行参考。这使得 RVOS比RIS复杂得多，因为参考动作的文本表达通常无法从单个静态帧中推导出来。

此外，与基于图像的 RIS 不同，RVOS 方法可能还需要跨多个帧（即跟踪）来建立参考对象的数据关联，以处理遮挡或运动模糊这类的干扰。

为了解决这些挑战，现有 RVOS 方法往往依赖复杂的 pipeline。在被CVPR 2022接收的一篇论文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中，来自以色列理工学院的研究者提出了一种简单的、基于Transformer的端到端RVOS方法——Multimodal Tracking Transformer（MTTR ）。图片

论文地址：https://www.zhuanzhi.ai/paper/e260fb216d3eb9d5531757cbe91ef940 项目地址：https://github.com/mttr2021/MTTR Huggingface Spaces Gradio demo：https://huggingface.co/spaces/akhaliq/MTTR

具体地，他们使用MTTR 将任务建模成序列预测问题。给定一个视频和文本查询，该模型在确定文本参考的对象之前为视频中所有对象生成预测序列。并且，他们的方法不需要与文本相关的归纳偏置模块，利用简单的交叉熵损失对齐视频和文本。因此，该方法相比以往简单的多。

研究者提出的pipeline示意图如下所示。首先使用标准的Transformer文本编码器从文本查询中提取语言特征，使用时空编码器从视频帧中提取视觉特征。接着将这些特征传递给多模态 Transformer 以输出几个对象预测序列。然后为了确定哪个预测序列能够最好地对应参考对象，研究者计算了每个序列的文本参考分数。为此，他们还提出了一种时序分割voting方案，使模型在做出决策时专注于最相关的部分。

从实验结果来看，MTTR 在 A2D-Sentences 和 JHMDB-Sentences 数据集上分别实现了+5.7和+5.0的mAP增益，同时每秒能够处理76帧。