论文题目:Siamese Network with Interactive Transformer for Video Object Segmentation

作者:Meng Lan, Jing Zhang, Fengxiang He, Lefei Zhang

指导教师:张乐飞教授

论文概述:在半监督视频目标分割中如何高效的学习和利用过去帧中目标的时空特征对于当前帧目标的分割至关重要。本文提出了一个新颖的基于交互式transformer和暹罗网络的视频目标分割框架SITVOS,交互式transformer以暹罗网路提取的当前帧和过去帧的特征作为输入,分别通过自注意力机制和互注意力机制对目标特征表达进行增强,并实现时序目标特征信息向当前帧的传播,实现对当前帧指定目标的特征增强,最后通过一个解码器完成指定目标的分割。相比于之前的基于匹配的方法,我们采用的暹罗网络在维护memory bank时可以实现特征复用,提高模型的效率。SITVOS在三个标准测试集上都达到了SOTA的性能。

成为VIP会员查看完整内容
22

相关内容

【AAAI2022】基于属性的渐进融合网络的RGBT跟踪
专知会员服务
20+阅读 · 2022年1月8日
【AAAI2022】锚点DETR:基于transformer检测器的查询设计
专知会员服务
12+阅读 · 2021年12月31日
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
12+阅读 · 2021年4月26日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
专知会员服务
21+阅读 · 2021年3月9日
专知会员服务
44+阅读 · 2021年1月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员