In this paper, we introduce a novel network that generates semantic, instance, and part segmentation using a shared encoder and effectively fuses them to achieve panoptic-part segmentation. Unifying these three segmentation problems allows for mutually improved and consistent representation learning. To fuse the predictions of all three heads efficiently, we introduce a parameter-free joint fusion module that dynamically balances the logits and fuses them to create panoptic-part segmentation. Our method is evaluated on the Cityscapes Panoptic Parts (CPP) and Pascal Panoptic Parts (PPP) datasets. For CPP, the PartPQ of our proposed model with joint fusion surpasses the previous state-of-the-art by 1.6 and 4.7 percentage points for all areas and segments with parts, respectively. On PPP, our joint fusion outperforms a model using the previous top-down merging strategy by 3.3 percentage points in PartPQ and 10.5 percentage points in PartPQ for partitionable classes.
翻译:在本文中, 我们引入了一个新颖的网络, 利用共享编码器生成语义、 实例和部分分割, 并有效地结合它们, 以达到全光部分分割 。 将这三个分割问题统一起来, 可以相互改进和一致地进行演示学习 。 为了将所有三个头的预测集成为一体, 我们引入了一个无参数的联合聚合模块, 动态地平衡对日志并结合它们, 以创建全光部分分割 。 我们的方法是在全光部分( CPP ) 和 Pascal Pan光部分( PPP) 数据集上进行评估 。 对于 CPPP, 我们提议的模型中联合组合的部位PQ 部分, 分别比以往所有区域和部分都高出1.6和4. 7个百分点。 在 PPP 中, 我们的联合组合将模型形成一个模型, 使用先前的上下组合战略, 以PartPQ 中3.3 和 PartPQ 中 的 10.5 百分点作为可分割的分类 。