基于注意力的深度神经网络(DNN)在NLP和CV等不同领域的各种任务上都表现出了卓越的性能。这些进展使得此类网络(如 Transformer)成为解决多模态问题的有力候选。特别是近一两年,Transformer 模型已经开始在CV任务上大展手脚,从目标识别到检测,效果优于通用的CNN视觉骨干网络。
参考视频对象分割(referring video object segmentation, RVOS)任务涉及到给定视频帧中文本参考对象实例的分割。相比之下,在得到更广泛研究的参考图像分割(referring image segmention, RIS)任务中,对象主要通过它们的外观进行参考。在RVOS中,对象可以通过它们正在执行或参与的动作进行参考。这使得 RVOS比RIS复杂得多,因为参考动作的文本表达通常无法从单个静态帧中推导出来。
此外,与基于图像的 RIS 不同,RVOS 方法可能还需要跨多个帧(即跟踪)来建立参考对象的数据关联,以处理遮挡或运动模糊这类的干扰。
为了解决这些挑战,现有 RVOS 方法往往依赖复杂的 pipeline。在被CVPR 2022接收的一篇论文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,来自以色列理工学院的研究者提出了一种简单的、基于Transformer的端到端RVOS方法——Multimodal Tracking Transformer(MTTR )。 图片
论文地址:https://www.zhuanzhi.ai/paper/e260fb216d3eb9d5531757cbe91ef940 项目地址:https://github.com/mttr2021/MTTR Huggingface Spaces Gradio demo:https://huggingface.co/spaces/akhaliq/MTTR
具体地,他们使用MTTR 将任务建模成序列预测问题。给定一个视频和文本查询,该模型在确定文本参考的对象之前为视频中所有对象生成预测序列。并且,他们的方法不需要与文本相关的归纳偏置模块,利用简单的交叉熵损失对齐视频和文本。因此,该方法相比以往简单的多。
研究者提出的pipeline示意图如下所示。首先使用标准的Transformer文本编码器从文本查询中提取语言特征,使用时空编码器从视频帧中提取视觉特征。接着将这些特征传递给多模态 Transformer 以输出几个对象预测序列。然后为了确定哪个预测序列能够最好地对应参考对象,研究者计算了每个序列的文本参考分数。为此,他们还提出了一种时序分割voting方案,使模型在做出决策时专注于最相关的部分。
从实验结果来看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 数据集上分别实现了+5.7和+5.0的mAP增益,同时每秒能够处理76帧。