数十年来,计算机图形学领域研究了很多类似的采样问题。例如,渲染器将模型(如 3D 网格)映射到点阵图像,即像素的规则网格。尽管输出是基于规则网格的,但计算并不按照网格来均匀分配。常见的图形学策略是,对图像平面中被自适应选择点的不规则子集计算出像素值。例如,[48] 中的典型细分(subdivision)技术获得了类四叉树采样模式,从而高效渲染出抗锯齿(anti-aliased,即边缘柔化)的高分辨率图像。
研究者将计算机视觉中的图像分割类比为计算机图形学中的图像渲染。所谓渲染,即是将模型(如 3D 网格)显示为像素的规则网格,即图像。尽管输出表示为规则网格,但其底层物理实体(如 3D 模型)是连续的,使用物理和几何推理(如光线追踪)可在图像平面的任意真值点查询其物理占用(physical occupancy)等属性。
基于这种类比,研究者提出 PointRend(Pointbased Rendering,「基于点的渲染」),用点的表征来解决图像分割问题。PointRend 模块接受一或多个包含 C 个通道的典型 CNN 特征图 f ∈ R^(C×H×W),每一个特征图都基于规则网格定义(其粗糙程度通常是图像网格的 4-16 倍),输出预测结果共有 K 个类别标签 p ∈ R^(K×H'×W'),输出基于不同分辨率(大概率分辨率更高)的规则网格。
PointRend 模块包含三个主要组件:
1. 点选择策略:选择少量真值点执行预测,避免对高分辨率输出网格中的所有像素进行过度计算;2. 对选中的每个点提取逐点特征表示:使用每个选中点在 f 规则网格上的 4 个最近邻点,利用 f 的双线性内插计算真值点的特征。因此,该方法能够利用 f 的通道维度中编码的子像素信息,来预测比 f 分辨率高的分割;3. point head:一个小型神经网络,用于基于逐点特征表示预测标签,它独立于每个点。