Recently, Space-Time Memory Network (STM) based methods have achieved state-of-the-art performance in semi-supervised video object segmentation (VOS). A crucial problem in this task is how to model the dependency both among different frames and inside every frame. However, most of these methods neglect the spatial relationships (inside each frame) and do not make full use of the temporal relationships (among different frames). In this paper, we propose a new transformer-based framework, termed TransVOS, introducing a vision transformer to fully exploit and model both the temporal and spatial relationships. Moreover, most STM-based approaches employ two separate encoders to extract features of two significant inputs, i.e., reference sets (history frames with predicted masks) and query frame (current frame), respectively, increasing the models' parameters and complexity. To slim the popular two-encoder pipeline while keeping the effectiveness, we design a single two-path feature extractor to encode the above two inputs in a unified way. Extensive experiments demonstrate the superiority of our TransVOS over state-of-the-art methods on both DAVIS and YouTube-VOS datasets.


翻译:最近,基于空间-时记忆网络(STM)的方法在半监控视频对象分割(VOS)中达到了最新水平的性能。这项任务中的一个关键问题是如何在不同的框架和每个框架内建模依赖性。然而,大多数这些方法忽视了空间关系(每个框架),没有充分利用时间关系(在不同框架中 ) 。 在本文件中,我们提议一个新的基于变压器的框架,称为 TransVOS,引入一个视野变异器,以充分利用和模拟时间和空间关系。此外,大多数基于STM的方法使用两个独立的编码器来提取两个重要投入的特征,即参考集(带有预测的面具的历史框架)和查询框架(当前框架),分别增加模型参数和复杂性。要缩小流行的双电码管道,同时保持有效性,我们设计一个单一的双向特征提取器,以统一的方式将以上两种投入编码。广泛的实验显示我们的TransVOS优先于DVIS和YouTube-VOS数据设置的状态方法。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年9月20日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】3D物体的特征编码变种
泡泡机器人SLAM
4+阅读 · 2019年1月1日
【泡泡一分钟】基于视频修复的时空转换网络
泡泡机器人SLAM
5+阅读 · 2018年12月30日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
7+阅读 · 2021年11月11日
VIP会员
相关资讯
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
【泡泡一分钟】LIMO:激光和单目相机融合的视觉里程计
泡泡机器人SLAM
11+阅读 · 2019年1月16日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】3D物体的特征编码变种
泡泡机器人SLAM
4+阅读 · 2019年1月1日
【泡泡一分钟】基于视频修复的时空转换网络
泡泡机器人SLAM
5+阅读 · 2018年12月30日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员