实例分割(instance segmentation)已经被以 Mask R-CNN 为代表的“先检测后分割”的框架主导了多年,之前涌现的单阶段实例分割算法也依然需要遍历图片中的每一个位置(feature grids)来预测实例分割掩码(instance masks),因此它们都需要一些额外的组件(如检测框或/和NMS)来区分不同实例或清理相同实例的掩码。
我们希望实例分割的推理过程可以像语义分割那样简单:由一组卷积核(convolutional kernels) 生成一组 mask,每一个 mask 至多只分割图片中的一个物体,且不同的 kernel 负责不同物体的 mask 生成。这样就可以不借助任何额外的组件来完成实例分割任务(box-free and NMS-free),并且在提高推理效率的同时实现端到端的训练优化,同时也自然地统一了语义、实例乃至全景分割任务的解决范式。
我们提出 K-Net 来作为这个思路的一种探索,在全景分割(COCO-panoptic,test-dev set, 55.2 PQ)和语义分割(ADE20K val set,54.3 mIoU)上取得了新的 state-of-the-art 结果,在相同的实例分割精度下模型的推理速度比 Cascade Mask R-CNN 快 60-90% 。