本次分享中,来自华中科技大学、字节跳动、约翰霍普金斯大学的研究者们提出了分别基于 Offline 和 Online 范式的两个视频实例分割 SOTA 模型:SeqFormer 和IDOL,这两篇工作现在都已经被 ECCV2022 接受为 Oral。在此之前,Online 模型的性能远远落后于 Offline 模型,该工作深入分析了此前 Offline 和 Online 模型性能相差巨大的原因,揭示了视频实例分割任务的关键问题,并且补齐了这个差距,让这两种范式回到相同的起跑线上。此外 IDOL 在第四届大规模视频物体分割挑战赛( 4th Large-scale Video Object Segmentation Challenge,CVPR2022)的视频实例分割赛道上取得第一名。
分享主题:离线模型 vs 在线模型 | 视频实例分割 SOTA:SeqFormer & IDOL
分享嘉宾:吴俊峰,华中科技大学 VLR 组博士生,指导老师为白翔教授。研究方向为计算机视觉,包括视频实例分割、目标跟踪等。目前以第一作者身份在计算机视觉顶级会议上发表多篇论文,并取得第四届 YouTube-VIS Challenge 的冠军。
分享摘要:
本次分享将首先回顾视频实例分割任务的两种主流范式与代表方法,比较不同范式的主要差异,并介绍提出的 Offline SOTA 模型。之后会深入分析之前 Offline 和Online 模型性能差距的原因,并介绍如何设计 Online 模型来补齐这个差距。
相关链接:
1、SeqFormer: Sequential Transformer for Video Instance Segmentation, ECCV, 2022 (Oral)
论文地址:
https://arxiv.org/abs/2112.08275
项目地址:
https://github.com/wjf5203/SeqFormer
2、In Defense of Online Models for Video Instance Segmentation, ECCV, 2022 (Oral)
论文地址:
https://arxiv.org/abs/2207.10661
项目地址:
https://github.com/wjf5203/VNext