The referring video object segmentation task (RVOS) involves segmentation of a text-referred object instance in the frames of a given video. Due to the complex nature of this multimodal task, which combines text reasoning, video understanding, instance segmentation and tracking, existing approaches typically rely on sophisticated pipelines in order to tackle it. In this paper, we propose a simple Transformer-based approach to RVOS. Our framework, termed Multimodal Tracking Transformer (MTTR), models the RVOS task as a sequence prediction problem. Following recent advancements in computer vision and natural language processing, MTTR is based on the realization that video and text can both be processed together effectively and elegantly by a single multimodal Transformer model. MTTR is end-to-end trainable, free of text-related inductive bias components and requires no additional mask-refinement post-processing steps. As such, it simplifies the RVOS pipeline considerably compared to existing methods. Evaluation on standard benchmarks reveals that MTTR significantly outperforms previous art across multiple metrics. In particular, MTTR shows impressive +5.7 and +5.0 mAP gains on the A2D-Sentences and JHMDB-Sentences datasets respectively, while processing 76 frames per second. In addition, we report strong results on the public validation set of Refer-YouTube-VOS, a more challenging RVOS dataset that has yet to receive the attention of researchers. The code to reproduce our experiments is available at https://github.com/mttr2021/MTTR


翻译:参考视频对象分割任务(RVOS)涉及在给定视频框框内对文本引用对象实例进行分解。由于这一多式联运任务的复杂性性质,将文字推理、视频理解、实例分解和跟踪结合起来,现有方法通常依靠复杂的管道处理。在本文件中,我们建议对REVOS采用简单的变压器法。我们的框架,称为多式跟踪变压器(MTTR),将RVOS的任务作为序列预测问题。在计算机视觉和自然语言处理方面最近的进展之后,MTTR基于这样一种认识,即视频和文本可以同时由单一的多式联运变压器模型有效和优雅地一起处理。MTTR是端到端的训练,没有与文字相关的偏向偏移偏移部分,不需要额外的后处理步骤。因此,我们的框架,称为多式跟踪跟踪器(MVOS)的管道与现有方法相比,显示MTTR的管道大大超越了以往的艺术。特别是,MTRTR-TR-RVERS的注意度+5 和IM-MA-MAL 模型的难度更大,而我们在JVS-RS-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-Silentral-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-Servial-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-C-C-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S

10
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
【ICML2020】文本摘要生成模型PEGASUS
专知会员服务
34+阅读 · 2020年8月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
8+阅读 · 2019年1月30日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
6+阅读 · 2018年6月21日
VIP会员
Top
微信扫码咨询专知VIP会员