【基于Tracklet查询和建议的高效视频实例分割】Efficient Video Instance Segmentation via Tracklet Query and Proposal
● 论文摘要:视频实例分割(Video Instance Segmentation, VIS)旨在同时对视频中的多个对象实例进行分类、分割和跟踪。本文提出了一个具有高效训练和推理的全端到端框架EfficientVIS。其核心是tracklet查询和tracklet提议,通过迭代的查询-视频交互将感兴趣区域跨时空关联和分割。我们进一步提出了一种函授学习方法,使片段之间的轨迹链接端到端可学习。与VisTR相比,EfficientVIS在YouTubeVIS基准上实现最先进的精度时,需要更少的15倍的训练时间。同时,我们的方法使整个视频实例分割在一个端到端传递,而不需要任何数据关联。
● 论文主页:https://jialianwu.com/projects/EfficientVIS.html
● 论文视频:https://youtu.be/sSPMzgtMKCE
● 作者单位:纽约州立大学布法罗分校、Amazon