In recent years, the state-of-the-art in unsupervised video instance segmentation has heavily relied on synthetic video data, generated from object-centric image datasets such as ImageNet. However, video synthesis by artificially shifting and scaling image instance masks fails to accurately model realistic motion in videos, such as perspective changes, movement by parts of one or multiple instances, or camera motion. To tackle this issue, we propose an unsupervised video instance segmentation model trained exclusively on real video data. We start from unsupervised instance segmentation masks on individual video frames. However, these single-frame segmentations exhibit temporal noise and their quality varies through the video. Therefore, we establish temporal coherence by identifying high-quality keymasks in the video by leveraging deep motion priors. The sparse keymask pseudo-annotations are then used to train a segmentation model for implicit mask propagation, for which we propose a Sparse-To-Dense Distillation approach aided by a Temporal DropLoss. After training the final model on the resulting dense labelset, our approach outperforms the current state-of-the-art across various benchmarks.


翻译:近年来,无监督视频实例分割领域的最先进方法严重依赖于合成视频数据,这些数据通常从以对象为中心的图像数据集(如ImageNet)生成。然而,通过人工平移和缩放图像实例掩码来合成视频的方法,无法准确模拟视频中真实的运动模式,例如视角变化、单个或多个实例的部分运动或相机运动。为解决这一问题,我们提出了一种完全基于真实视频数据训练的无监督视频实例分割模型。我们从单帧视频上的无监督实例分割掩码出发,但这些单帧分割结果存在时序噪声,且其质量在视频中波动。因此,我们通过利用深度运动先验识别视频中的高质量关键掩码,以建立时序一致性。这些稀疏的关键掩码伪标注随后用于训练一个用于隐式掩码传播的分割模型,为此我们提出了一种结合时序丢弃损失(Temporal DropLoss)的稀疏到稠密蒸馏方法。在最终模型基于生成的稠密标签集训练后,我们的方法在多个基准测试中超越了当前的最先进水平。

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员