用于在线视频实例分割的混合实例觉知时序融合方法
Hybrid Instance-aware Temporal Fusion for Online Video Instance Segmentation
论文摘要:本文提出了一种基于实例的时序内容融合方法,用于在线视频实例分割框架。首先,我们利用图像分割的一种表示,基于实例的全局编码和 CNN 特征图来表示实例级和像素级特征。基于这种表示,我们引入了一种无需裁剪的时序融合方法来对视频帧之间的时间一致性进行建模。具体地,我们在实例编码中对全局实例信息进行编码,并通过实例编码和 CNN 特征图之间的混合注意力机制建模帧间的上下文融合。利用学习到的混合时间一致性,我们能够直接检索和维护跨帧的实例身份,去除了先前方法中复杂的逐帧实例匹配方案。在 Youtube-VIS-19/21 数据集,我们的模型在所有在线视频实例分割方法中取得了最佳性能。
论文开创性突破与核心贡献:用于实时视频实力分割的高效时序融合方法,在所有在线视频实例分割方法中取得了最佳性能。
https://www.zhuanzhi.ai/paper/7ea2959c252c2c2e8bbc5614bc159ef3