Video instance segmentation (VIS) is a new and critical task in computer vision. To date, top-performing VIS methods extend the two-stage Mask R-CNN by adding a tracking branch, leaving plenty of room for improvement. In contrast, we approach the VIS task from a new perspective and propose a one-stage spatial granularity network (SG-Net). Compared to the conventional two-stage methods, SG-Net demonstrates four advantages: 1) Our method has a one-stage compact architecture and each task head (detection, segmentation, and tracking) is crafted interdependently so they can effectively share features and enjoy the joint optimization; 2) Our mask prediction is dynamically performed on the sub-regions of each detected instance, leading to high-quality masks of fine granularity; 3) Each of our task predictions avoids using expensive proposal-based RoI features, resulting in much reduced runtime complexity per instance; 4) Our tracking head models objects centerness movements for tracking, which effectively enhances the tracking robustness to different object appearances. In evaluation, we present state-of-the-art comparisons on the YouTube-VIS dataset. Extensive experiments demonstrate that our compact one-stage method can achieve improved performance in both accuracy and inference speed. We hope our SG-Net could serve as a strong and flexible baseline for the VIS task. Our code will be available.


翻译:视频实例分割(VIS)是计算机愿景中一项新的和关键的任务。迄今为止,最佳的VIS方法通过增加一个跟踪分支,扩展了两阶段的遮罩 R-CNN, 留下大量空间改进空间。相比之下,我们从新的角度对待VIS任务,并提出一个单阶段空间颗粒网络(SG-Net)。与传统的两阶段方法相比,SG-Net展示了四个优点:1)我们的方法有一个单阶段的紧凑结构,每个任务头(探测、分解和跟踪)都是相互依存的,以便它们能够有效地分享特征并享受联合优化;2)我们的遮罩预测是动态地在每一个被检测到的子区域进行,导致高品质的微颗粒面罩;3)我们每一项任务预测都避免使用昂贵的基于建议书的RoI功能,从而大大降低运行时间复杂性;4)我们追踪头模型用于跟踪的中心移动,从而有效地加强跟踪不同对象外观的稳健性。在评估中,我们展示了对YouTube-VIS的动态比较,这是我们在VIS数据库中的一项强的精确性工作。我们可以用来展示我们目前的数据模型。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年4月5日
【NeurIPS 2020】对比学习全局和局部医学图像分割特征
专知会员服务
42+阅读 · 2020年10月20日
专知会员服务
53+阅读 · 2020年3月16日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
已删除
将门创投
5+阅读 · 2017年10月20日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
UPSNet: A Unified Panoptic Segmentation Network
Arxiv
3+阅读 · 2019年1月12日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关资讯
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
已删除
将门创投
5+阅读 · 2017年10月20日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员