Sliding-window object detectors that generate bounding-box object predictions over a dense, regular grid have advanced rapidly and proven popular. In contrast, modern instance segmentation approaches are dominated by methods that first detect object bounding boxes, and then crop and segment these regions, as popularized by Mask R-CNN. In this work, we investigate the paradigm of dense sliding-window instance segmentation, which is surprisingly under-explored. Our core observation is that this task is fundamentally different than other dense prediction tasks such as semantic segmentation or bounding-box object detection, as the output at every spatial location is itself a geometric structure with its own spatial dimensions. To formalize this, we treat dense instance segmentation as a prediction task over 4D tensors and present a general framework called TensorMask that explicitly captures this geometry and enables novel operators on 4D tensors. We demonstrate that the tensor view leads to large gains over baselines that ignore this structure, and leads to results comparable to Mask R-CNN. These promising results suggest that TensorMask can serve as a foundation for novel advances in dense mask prediction and a more complete understanding of the task. Code will be made available.


翻译:光滑窗口天体探测器对密度稠密的常规电网进行捆绑式天体预测,这种天体探测器已经迅速发展,并被证明很受欢迎。相比之下,现代环境分化方法以首先检测物体捆绑箱的方法为主,然后是这些地区的作物和区块,由Mask R-CNN所普及。在这项工作中,我们调查了密集滑动风体分化的范式,这令人惊讶地在探索不足。我们的核心观察是,这项任务与其他密集的预测任务有根本的不同,例如语义分解或捆绑式天体探测器探测,因为每个空间地点的输出本身都是具有自身空间维度的几何结构。为了正式确定这一点,我们把密集实例分解作为4D 色度的预测任务处理,并提出了一个称为TensorMask 的总框架,明确捕捉到这种几何形状,使4D 振标上的新操作者能够使用4D 。我们证明,高温的视野导致在基线上获得巨大收益,并导致与Mas R-CNN相仿的结果。这些很有希望的结果表明,TensorMask 能够作为在密集面具预测中取得新的进展的基础,并获得更完整的理解。

10
下载
关闭预览

相关内容

[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
10+阅读 · 2019年1月24日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
从R-CNN到Mask R-CNN!
全球人工智能
17+阅读 · 2017年11月13日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
相关论文
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
10+阅读 · 2019年1月24日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员