Video instance segmentation is a complex task in which we need to detect, segment, and track each object for any given video. Previous approaches only utilize single-frame features for the detection, segmentation, and tracking of objects and they suffer in the video scenario due to several distinct challenges such as motion blur and drastic appearance change. To eliminate ambiguities introduced by only using single-frame features, we propose a novel comprehensive feature aggregation approach (CompFeat) to refine features at both frame-level and object-level with temporal and spatial context information. The aggregation process is carefully designed with a new attention mechanism which significantly increases the discriminative power of the learned features. We further improve the tracking capability of our model through a siamese design by incorporating both feature similarities and spatial similarities. Experiments conducted on the YouTube-VIS dataset validate the effectiveness of proposed CompFeat. Our code will be available at https://github.com/SHI-Labs/CompFeat-for-Video-Instance-Segmentation.


翻译:视频实例分解是一项复杂的任务,我们需要在其中检测、分解和跟踪任何特定视频的每个对象。以往的做法只是利用单一框架特征来探测、分解和跟踪物体,而且由于一些不同的挑战,如运动模糊和外观变化剧烈,在视频情景中它们会受到影响。为消除仅使用单一框架特征带来的模糊性,我们提议采用新的综合性特征汇总方法(CompFeat)来利用时间和空间背景信息来完善框架层面和目标层面的特征。集成过程经过精心设计,采用了新的关注机制,大大提高了所学特征的歧视性力量。我们通过将特征相似性和空间相似性纳入平面设计,进一步提高了模型的跟踪能力。在YouTube-VIS数据集上进行的实验验证了拟议CompFeat的有效性。我们的代码将在https://github.com/SHI-Labs/CompFeatat-for-Video-Instance-Sectionation上查阅。

8
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年1月19日
专知会员服务
8+阅读 · 2020年12月10日
专知会员服务
109+阅读 · 2020年3月12日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
已删除
将门创投
3+阅读 · 2018年11月20日
Arxiv
0+阅读 · 2021年2月8日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
3+阅读 · 2018年3月5日
Arxiv
5+阅读 · 2016年10月24日
VIP会员
Top
微信扫码咨询专知VIP会员