We present a single-shot, bottom-up approach for whole image parsing. Whole image parsing, also known as Panoptic Segmentation, generalizes the tasks of semantic segmentation for 'stuff' classes and instance segmentation for 'thing' classes, assigning both semantic and instance labels to every pixel in an image. Recent approaches to whole image parsing typically employ separate standalone modules for the constituent semantic and instance segmentation tasks and require multiple passes of inference. Instead, the proposed DeeperLab image parser performs whole image parsing with a significantly simpler, fully convolutional approach that jointly addresses the semantic and instance segmentation tasks in a single-shot manner, resulting in a streamlined system that better lends itself to fast processing. For quantitative evaluation, we use both the instance-based Panoptic Quality (PQ) metric and the proposed region-based Parsing Covering (PC) metric, which better captures the image parsing quality on 'stuff' classes and larger object instances. We report experimental results on the challenging Mapillary Vistas dataset, in which our single model achieves 31.95% (val) / 31.6% PQ (test) and 55.26% PC (val) with 3 frames per second (fps) on GPU or near real-time speed (22.6 fps on GPU) with reduced accuracy.
翻译:我们为整张图像解析提出了一个单发、自下而上的方法。 整张图像解析, 也称为 Panoplic 分割, 概括了“ stuff” 类和“ thing” 类的语义分解任务, 给图像中的每个像素分配语义标签和实例标签。 整张图像解析的最近方法通常为构成语义和实例分割任务使用单独的独立模块, 并需要多次解析 。 相反, 拟议的 DederLab 图像解析器以简单得多的、 完全同步化的方法对整张图像进行分解, 以单发方式共同处理语义和实例分解任务, 导致一个简化的系统, 更便于快速处理。 对于定量评估, 我们使用基于实例的全光质质量( PQ) 度和基于区域的剖析覆盖( PC) 度测量, 更好地捕捉到“ stuff” 类和较大对象实例的图像质量。 我们报告在具有挑战性的 Mably 和例分级 Gs 3 的 Gstistral Q 格式上的实验结果, 3 和 Cervical 等 3 的 的 度( III 度为 的 的 的 的 的 度) 和 度为 的 度的 度/ camplestublibliblexxxx 的 的 3 的G) 的 的 的 的 度/ 度/ 度 的 的 的 的 的 的 的 的 的 的 的 的 度的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 度标度标的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 和 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的