隐蔽的视频实例分割 (Occluded Video Instance Segmentation) - 专知论文

会员服务 ·

0

可理解性 · 示例 · 数据集 · state-of-the-art · R-CNN ·

2021 年 2 月 2 日

Occluded Video Instance Segmentation

翻译：隐蔽的视频实例分割

Jiyang Qi,Yan Gao,Xiaoyu Liu,Yao Hu,Xinggang Wang,Xiang Bai,Philip H. S. Torr,Serge Belongie,Alan Yuille,Song Bai

from arxiv, 10 pages, 11 figures

Can our video understanding systems perceive objects when a heavy occlusion exists in a scene? To answer this question, we collect a large scale dataset called OVIS for occluded video instance segmentation, that is, to simultaneously detect, segment, and track instances in occluded scenes. OVIS consists of 296k high-quality instance masks from 25 semantic categories, where object occlusions usually occur. While our human vision systems can understand those occluded instances by contextual reasoning and association, our experiments suggest that current video understanding systems are not satisfying. On the OVIS dataset, the highest AP achieved by state-of-the-art algorithms is only 14.4, which reveals that we are still at a nascent stage for understanding objects, instances, and videos in a real-world scenario. Moreover, to complement missing object cues caused by occlusion, we propose a plug-and-play module called temporal feature calibration. Built upon MaskTrack R-CNN and SipMask, we report an AP of 15.2 and 15.0 respectively. The OVIS dataset is released at http://songbai.site/ovis , and the project code will be available soon.

翻译：我们的视频理解系统能否感知到当场中存在严重封闭时的物体? 为了回答这个问题,我们收集了一个大型数据集,名为 OVIS,用于隐蔽视频实例分割,即同时检测、分解和跟踪隐蔽场景中的事例。 OVIS 由来自25个语义类的296k高品质掩体遮罩组成,通常会发生物体隔离。虽然我们的人类视觉系统可以通过背景推理和关联来理解隐蔽的事例,但我们的实验表明,目前的视频理解系统并不令人满意。在 OVIS 数据集上,通过最新算法实现的最高AP值仅为14.4,这表明我们仍然处于在现实世界情景中理解对象、事件和视频的新生阶段。此外,为了补充封闭造成的缺失对象提示,我们提议了一个称为时间特征校准的插片模块。在MaskTrack R-CNN 和SipMask 上,我们报告AP 分别是15.2和15.0。 OVIS 数据设置将在http://ongbai上发布。

1

相关内容

可理解性

直白生动！《机器学习知识点彩图版》297页ppt以图画式描述机器学习中的知识点

直白生动！《机器学习知识点彩图版》297页ppt以图画式描述机器学习中的知识点

专知会员服务

81+阅读 · 2021年3月11日

深度卷积神经网络图像语义分割研究进展

专知会员服务

87+阅读 · 2021年1月7日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【CVPR2020-微软-CMU】视频物体分割的一种直推方法，Video Object Segmentation

【CVPR2020-微软-CMU】视频物体分割的一种直推方法，Video Object Segmentation

专知会员服务

7+阅读 · 2020年4月16日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

2019年机器学习框架回顾

2019年机器学习框架回顾

专知会员服务

36+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

CVPR2019| 05-17更新11篇论文及代码合集（含一篇oral，视觉跟踪/实例分割/行人重识别等）

CVPR2019| 05-17更新11篇论文及代码合集（含一篇oral，视觉跟踪/实例分割/行人重识别等）

极市平台

11+阅读 · 2019年5月17日

【泡泡一分钟】SSD6D：基于RGB的三维检测和6自由度位姿估计(ICCV2017-159)

【泡泡一分钟】SSD6D：基于RGB的三维检测和6自由度位姿估计(ICCV2017-159)

泡泡机器人SLAM

17+阅读 · 2018年10月12日

ECCV 2018 | OR-CNN行人检测：为‘遮挡’而生

ECCV 2018 | OR-CNN行人检测：为‘遮挡’而生

极市平台

6+阅读 · 2018年9月21日

【泡泡一分钟】SegFlow：视频目标分割和光流的联合学习(ICCV2017-67)

【泡泡一分钟】SegFlow：视频目标分割和光流的联合学习(ICCV2017-67)

泡泡机器人SLAM

9+阅读 · 2018年8月15日

语义分割+视频分割开源代码集合

语义分割+视频分割开源代码集合

极市平台

35+阅读 · 2018年3月5日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

数据挖掘入门与实战

3+阅读 · 2018年1月16日

从R-CNN到Mask R-CNN！

从R-CNN到Mask R-CNN！

全球人工智能

17+阅读 · 2017年11月13日

从R-CNN到Mask R-CNN

从R-CNN到Mask R-CNN

机器学习研究会

25+阅读 · 2017年11月13日

【推荐】视频目标分割基础

【推荐】视频目标分割基础

机器学习研究会

9+阅读 · 2017年9月19日

Learning to Track with Object Permanence

Arxiv

0+阅读 · 2021年3月26日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation

Arxiv

8+阅读 · 2020年12月7日

Dual Temporal Memory Network for Efficient Video Object Segmentation

Dual Temporal Memory Network for Efficient Video Object Segmentation

Arxiv

5+阅读 · 2020年3月13日

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

Arxiv

9+阅读 · 2019年8月28日

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Arxiv

4+阅读 · 2019年7月4日

S4Net: Single Stage Salient-Instance Segmentation

S4Net: Single Stage Salient-Instance Segmentation

Arxiv

10+阅读 · 2019年4月10日

Video-to-Video Synthesis

Video-to-Video Synthesis

Arxiv

9+阅读 · 2018年8月20日

MaskRNN: Instance Level Video Object Segmentation

Arxiv

6+阅读 · 2018年3月29日

Recurrent Instance Segmentation

Arxiv

5+阅读 · 2016年10月24日

VIP会员

文章信息

相关主题

state-of-the-art

相关VIP内容

直白生动！《机器学习知识点彩图版》297页ppt以图画式描述机器学习中的知识点

直白生动！《机器学习知识点彩图版》297页ppt以图画式描述机器学习中的知识点

专知会员服务

81+阅读 · 2021年3月11日

深度卷积神经网络图像语义分割研究进展

专知会员服务

87+阅读 · 2021年1月7日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【CVPR2020-微软-CMU】视频物体分割的一种直推方法，Video Object Segmentation

【CVPR2020-微软-CMU】视频物体分割的一种直推方法，Video Object Segmentation

专知会员服务

7+阅读 · 2020年4月16日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

2019年机器学习框架回顾

2019年机器学习框架回顾

专知会员服务

36+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津大学博士论文】将序列结构与几何结构融入深度神经网络

工程视角：影响战争进程的小型无人机

企业级AI应用开发：从技术选型到生产落地

AI生成代码缺陷综述

相关资讯

CVPR2019| 05-17更新11篇论文及代码合集（含一篇oral，视觉跟踪/实例分割/行人重识别等）

CVPR2019| 05-17更新11篇论文及代码合集（含一篇oral，视觉跟踪/实例分割/行人重识别等）

极市平台

11+阅读 · 2019年5月17日

【泡泡一分钟】SSD6D：基于RGB的三维检测和6自由度位姿估计(ICCV2017-159)

【泡泡一分钟】SSD6D：基于RGB的三维检测和6自由度位姿估计(ICCV2017-159)

泡泡机器人SLAM

17+阅读 · 2018年10月12日

ECCV 2018 | OR-CNN行人检测：为‘遮挡’而生

ECCV 2018 | OR-CNN行人检测：为‘遮挡’而生

极市平台

6+阅读 · 2018年9月21日

【泡泡一分钟】SegFlow：视频目标分割和光流的联合学习(ICCV2017-67)

【泡泡一分钟】SegFlow：视频目标分割和光流的联合学习(ICCV2017-67)

泡泡机器人SLAM

9+阅读 · 2018年8月15日

语义分割+视频分割开源代码集合

语义分割+视频分割开源代码集合

极市平台

35+阅读 · 2018年3月5日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

数据挖掘入门与实战

3+阅读 · 2018年1月16日

从R-CNN到Mask R-CNN！

从R-CNN到Mask R-CNN！

全球人工智能

17+阅读 · 2017年11月13日

从R-CNN到Mask R-CNN

从R-CNN到Mask R-CNN

机器学习研究会

25+阅读 · 2017年11月13日

【推荐】视频目标分割基础

【推荐】视频目标分割基础

机器学习研究会

9+阅读 · 2017年9月19日

相关论文

Learning to Track with Object Permanence

Arxiv

0+阅读 · 2021年3月26日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation

Arxiv

8+阅读 · 2020年12月7日

Dual Temporal Memory Network for Efficient Video Object Segmentation

Dual Temporal Memory Network for Efficient Video Object Segmentation

Arxiv

5+阅读 · 2020年3月13日

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

iSAID: A Large-scale Dataset for Instance Segmentation in Aerial Images

Arxiv

9+阅读 · 2019年8月28日

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Arxiv

4+阅读 · 2019年7月4日

S4Net: Single Stage Salient-Instance Segmentation

S4Net: Single Stage Salient-Instance Segmentation

Arxiv

10+阅读 · 2019年4月10日

Video-to-Video Synthesis

Video-to-Video Synthesis

Arxiv

9+阅读 · 2018年8月20日

MaskRNN: Instance Level Video Object Segmentation

Arxiv

6+阅读 · 2018年3月29日

Recurrent Instance Segmentation

Arxiv

5+阅读 · 2016年10月24日

微信扫码咨询专知VIP会员