【速览】TIP 2021丨基于全局与局部纹理随机化的虚拟到现实跨域语义分割

2021 年 8 月 5 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

基于全局与局部纹理随机化的虚拟到现实跨域语义分割

彭铎

^1

, 雷印杰

^{1,*}

, 刘凌峤

^2

, 张平平

^3

, 刘俊

^4

^{1}

四川大学 ,

^{2}

阿德莱德大学,

^{3}

大连理工大学,

^{4}

新加坡科技与设计大学

TIP 2021

撰稿人：彭铎

*通讯作者：雷印杰 (yinjie@scu.edu.cn)

推荐理事：林宙辰

原文标题： Global and Local Texture Randomization for Synthetic-to-Real Semantic Segmentation

原文链接： https://ieeexplore.ieee.org/document/9489280

◆ ◆ ◆ ◆

摘要

在有关语义分割的实际应用中，像素级标签的制作需要付出很大的标注代价，为了节约成本，许多工作都是利用合成图像来训练语义分割模型并应用到真实场景中，即虚拟到真实的跨域语义分割 SRSS 。然而，基于合成数据（源域）训练的深度卷积神经网络不能很好地泛化到目标真实数据（目标域）。为了解决这一问题，许多科研人员投身到 域适应 的研究领域中，试图缓解虚拟域和真实域之间的数据分布差异。除域适应外， 域泛化 技术是面向 SRSS 的另一种可观方案。与域适应不同，域泛化在训练过程中不访问目标域的任何数据。在本文中，我们提出了两种简单而有效的纹理随机化机制实现域泛化，即全局纹理随机化 (GTR) 和局部纹理随机化 (LTR) 。 GTR 可将源图像的纹理随机化成不同的非真实纹理样式，旨在促进域不变信息学习的同时，减轻网络对纹理的依赖。此外，我们发现虚拟域和真实域的纹理差异并不总是发生在整张图像中，即差异可能只出现在某些局部区域。针对此现象，我们进一步提出了一种 LTR 机制来生成多样化的局部区域，以实现局部纹理随机化。最后，我们添加了 GTR 和 LTR 之间的一致性正则化（ CGL ），其目的是在训练过程中自适应地协调这两种机制。通过在 GTA5 、 SYNTHIA 、 Cityscapes 、 BDDS 和 Mapillary 5 个公开数据集上的广泛实验，我们的方法在目前基于域泛化技术的 SRSS 领域内取得了显著的效果。

背景

Geirhos 等人 [1] 证明了 CNN 在认知物体时有对训练图像纹理的强烈偏向。因此可以说明，正是由于虚拟图像与真实图像的纹理表现明显不同，导致 SRSS 性能不理想。现有的 [2] 、 [3] 方法利用这一特点，将源图像的风格转换为真实图像的风格。然而，当目标域的数据无法访问时，此类方法只能无针对性地寻找多样化场景的真实图像。在这种情况下，真实图像的样式必须手动选择，以覆盖可能发生在目标域的各种可能的场景，导致了不便。与此相反，我们的方法是利用虚幻的绘画图像来进行纹理随机化。具体来说，通过 GTR 引入更多的随机和不规则的不真实纹理 ( 如图 1 所示 ) ，增加 CNN 对图像纹理的学习难度。引导网络转而学习更多领域不变的线索 ( 例如形状和空间布局 ) 。如图 2 所示，与用真实图像进行风格迁移相比，使用不真实的绘画可以在保留物体结构信息的基础上使纹理变得不规则和模糊。

图 1 全局纹理随机化示例

图 2 真实图像与虚幻绘画风格迁移的比较

GTR倾向于使网络完全忽略纹理信息，它确实增强了模型对纹理移动的鲁棒性，但也阻止了网络利用一些有价值的纹理线索。事实上，在大多数情况下，图像中只有一些局部区域存在纹理差异。如图3所示，只有红色掩蔽区域的纹理差异较大，其他区域的纹理差异较小。因此，我们提出了局部纹理随机化(LTR)来应对这种情况。由于这些局部区域通常具有任意形状，因此LTR生成具有随机边界的局部纹理随机区域(如图4所示)，可以使CNN在各种不同的局部纹理场景下获得良好的性能。

图 3 图像局部纹理差异说明图

图 4 局部纹理随机化示例

方法描述

GTR 的目的是去除源图像的纹理，用绘画的风格代替。注意，在每次迭代中，我们对

K

幅图画进行随机抽样，获得单张图画

T

。然后我们使用预先训练好的风格迁移网络 [4] 将所选图像的纹理转移到源图像

X

上。具体来说，如图 10 所示，首先将原始图像

X

和图像

T

输入预先训练好的暹罗编码器进行特征提取。特征提取可以表示为 :

其中， $F_{X}$ 和 $F_{T}$ 表示从源图像 $X$ 和绘画 $T$ 中提取的特征图， $\theta ^{en}$ 表示编码器网络 $f(\cdot ,\cdot )$ 的权重。之后，利用自适应实例归一化(AdaIN)[4]进行特征融合。AdaIN将提取的特征图均值和方差作为仿射参数。AdaIN实现的特征融合可以表示为:

其中， $F_{\mu }$ 为融合的特征图， $\mu \left ( \cdot \right )$ 和 $\sigma \left ( \cdot \right )$ 为整个特征图空间计算的均值和方差值。最后，由预训练的解码器将融合后的特征解码获得图像 $X_{GTR }$ 。GTR生成的图像可以通过以下方式计算:

其中， $\theta ^{de}$ 为译码器网络的权值。

LTR是一种局部随机纹理随机生成图像的方法。原始图像 $X$ 和GTR生成的图像 $X_{GTR }$ 被送入LTR模块生成输出图像 $X_{LTR }$ ，在每个迭代中,使用一个随机生成的掩膜 $M$ 来混合原始图像 $X$ 和 $X_{GTR }$ 。我们利用掩模发生器[5]创建掩模 $M$ ，首先生成一幅高斯噪声图像，其服从正态分布N(0,1)，命名为 $G$ 。然后，对噪声图像 $G$ 进行高斯核平滑:

其中， $S$ 为平滑图像， $f^{3\times 3}\left ( \cdot ,\cdot \right )$ 为3×3高斯核的卷积， $\gamma$ 为高斯核的标准差。对于 $\gamma$ ，我们使用超参数 $\lambda$ 进行非线性计算得到，即 $\gamma =exp\left ( lg\left ( \lambda \right ) \right )$ 。最后，通过判决门限将平滑图像转变为黑白掩膜 $M$ ，判决门限可以通过下式计算得到:

其中， $erf^{-1}\left ( \cdot \right )$ 为误差函数 $erf\left ( \cdot \right )$ 的逆函数[6]， $\mu S$ 和 $\sigma S$ 分别为平滑图像 $S$ 的均值和标准差， $p$ 是决定白色区域占比的超参数。

实验结果

我们进行了大量的实验来展示我们的框架的泛化性能。由于当前域泛化的相关研究并不多，我们将我们的结果与已知的三种域泛化方法 DPRC [7], IBN[8] 和 SW[9] 进行了比较。需要注意的是， DPRC 、 IBN 和 SW 基于不同的骨干网络，即 ResNet-101 (DPRC) 、 ResNet-50 (IBN) 和 VGG16 (SW) 。因此，我们在三个不同的骨干网上实现我们的方法，以进行公平的比较。结果表明，所提出方法都显著优于所有的对比方法。

表 1 与DRPC的实验结果对比

表 2 与IBN的实验结果对比

表 3 与SW的实验结果对比

图 5 在三种跨域设定下的分割结果展示

参考文献

[1] R. Geirhos, P. Rubisch, C. Michaelis, M. Bethge, F. A. Wichmann, and W. Brendel, “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness,” 2018, arXiv:1811.12231. [Online]. Available: http://arxiv.org/abs/1811.12231

[2] J. Hoffman et al., “CyCADA: Cycle-consistent adversarial domain adaptation,” 2017, arXiv:1711.03213. [Online]. Available: http://arxiv.org/abs/1711.03213

[3] K. Bousmalis, N. Silberman, D. Dohan, D. Erhan, and D. Krishnan, “Unsupervised pixel-level domain adaptation with generative adversarial networks,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 3722–3731.

[4] X. Huang and S. Belongie, “Arbitrary style transfer in real-time with adaptive instance normalization,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Oct. 2017, pp. 1501–1510.

[5] G. French, S. Laine, T. Aila, M. Mackiewicz, and G. Finlayson, “Semi-supervised semantic segmentation needs strong, varied perturbations,” 2019, arXiv:1906.01916. [Online]. Available: http://arxiv.org/abs/1906.01916

[6] L. C. Andrews, Special Functions of Mathematics for Engineers, vol. 49. Bellingham, WA, USA: SPIE, 1998.

[7] X. Yue, Y. Zhang, S. Zhao, A. Sangiovanni-Vincentelli, K. Keutzer, and B. Gong, “Domain randomization and pyramid consistency: Simulation-to-real generalization without accessing target domain data,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 2100–2110.

[8] X. Pan, P. Luo, J. Shi, and X. Tang, “Two at once: Enhancing learning and generalization capacities via IBN-Net,” in Proc. Eur. Conf. Comput. Vis. (ECCV), 2018, pp. 464–479.

[9] X. Pan, X. Zhan, J. Shi, X. Tang, and P. Luo, “Switchable whitening for deep representation learning,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 1863–1871.