【速览】TIP 2021丨基于全局与局部纹理随机化的虚拟到现实跨域语义分割

2021 年 8 月 5 日 中国图象图形学学会CSIG
   


















会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~










◆ ◆ ◆ ◆

基于全局与局部纹理随机化的虚拟到现实跨域语义分割

彭铎   , 雷印杰   ,  刘凌峤    , 张平平   , 刘俊   
   四川 大学 ,   阿德莱德大学,   大连理工大学,   新加坡科技与设计大学
TIP 2021
撰稿人: 彭铎

*通讯作者:雷印杰 (yinjie@scu.edu.cn)

推荐理事:林宙辰
原文标题: Global and Local Texture Randomization for Synthetic-to-Real Semantic Segmentation
原文链接: https://ieeexplore.ieee.org/document/9489280









◆ ◆ ◆ ◆


摘要
在有 关语义分割的实际 应用中,像素级标签的制作需要付出很大的标注代价,为了节约成本,许多工作都是利用合成图像来训练 语义分割模型并应用到真实场景中,即虚拟到真实的跨域语义分割 SRSS 然而,基于合成数据(源域)训练的深度卷积神经网络不能很好地泛化到目标真实数据(目标域)。 为了解决这一问题,许多科研人员投身到 域适应 的研究领域中,试图缓解虚拟域和真实域之间的数据分布差异。 除域适应外, 域泛化 技术是面向 SRSS 的另一种可观方案。 与域适应不同,域泛化在训练过程中不访问目标域的任何数据。 在本文中,我们提出了两种简单而有效的纹理随机化机制 实现域泛化 ,即全局纹理随机化 (GTR) 和局部纹理随机化 (LTR) GTR 可将源图像的纹理随机化成不同的非真实纹理样式,旨在促进域不变信息学习的同时,减轻网络对纹理的依赖。 此外,我们发现虚拟域和真实域的纹理差异并不总是发生在整张图像中,即差异可能只出现在某些局部区域。 针对此现象,我们进一步提出了一种 LTR 机制来生成多样化的局部区域,以实现局部纹理随机化。 最后,我们添加了 GTR LTR 之间的一致性正则化( CGL ),其目的是在训练过程中自适应地协调这两种机制。 通过在 GTA5 SYNTHIA Cityscapes BDDS Mapillary 5 个公开数据集上的广泛实验,我们的方法在目前 基于域泛化技术的 SRSS 领域 取得了显著的效果。
背景
Geirhos 等人 [1] 证明了 CNN 在认知物体时有对训练图像纹理的强烈偏向。 因此可以说明,正是由于虚拟图像与真实图像的纹理表现明显不同,导致 SRSS 性能不理想。 现有的 [2] [3] 方法利用这一特点,将源图像的风格转换为真实图像的风格。 然而,当目标域的数据无法访问时,此类方法只能无针对性地寻找多样化场景的真实图像。 在这种情况下,真实图像的样式必须手动选择,以覆盖可能发生在目标域的各种可能的场景,导致了不便。 与此相反,我们的方法是利用虚幻的绘画图像来进行纹理随机化。 具体来说,通过 GTR 引入更多的随机和不规则的不真实纹理 ( 如图 1 所示 ) ,增加 CNN 对图像纹理的学习难度。 引导网络转而学习更多领域不变的线索 ( 例如形状和空间布局 ) 如图 2 所示,与用真实图像进行风格迁移相比,使用不真实的绘画可以在保留物体结构信息的基础上使纹理变得不规则和模糊。

图 1 全局纹理随机化示例

图 2 真实图像与虚幻绘画风格迁移的比较

GTR倾向于使网络完全忽略纹理信息,它确实增强了模型对纹理移动的鲁棒性,但也阻止了网络利用一些有价值的纹理线索。事实上,在大多数情况下,图像中只有一些局部区域存在纹理差异。如图3所示,只有红色掩蔽区域的纹理差异较大,其他区域的纹理差异较小。因此,我们提出了局部纹理随机化(LTR)来应对这种情况。由于这些局部区域通常具有任意形状,因此LTR生成具有随机边界的局部纹理随机区域(如图4所示),可以使CNN在各种不同的局部纹理场景下获得良好的性能。

图 3 图像局部纹理差异说明图

图 4 局部纹理随机化示例
方法描述
GTR 的目的是去除源图像的纹理,用绘画的风格代替。 注意,在每次迭代中,我们对    幅图画进行随机抽样,获得单张图画    然后我们使用预先训练好的风格迁移网络 [4] 将所选图像的纹理转移到源图像    上。 具体来说,如图 10 所示,首先将原始图像    和图像    输入预先训练好的暹罗编码器进行特征提取。 特征提取可以表示为 :

其中,      表示从源图像   和绘   中提取的特征图,   表示编码器网络   的权重之后,利用自适应实例归一化(AdaIN)[4]进行特征融合。AdaIN将提取的特征图均值和方差作为仿射参数。AdaIN实现的特征融合可以表示为:

其中,   为融合的特征图,   和   为整个特征图空间计算的均值和方差值。最后,由预训练的解码器将融合后的特征解码获得图像   。GTR生成的图像可以通过以下方式计算:

其中,   为译码器网络的权值。

LTR是一种局部随机纹理随机生成图像的方法。原始图像   和GTR生成的图像   被送入LTR模块生成输出图像   ,在每个迭代中,使用一个随机生成的掩膜   来混合原始图像   和   。我们利用掩模发生器[5]创建掩模   ,首先生成一幅高斯噪声图像,其服从正态分布N(0,1),命名为   。然后,对噪声图像   进行高斯核平滑:

其中,   为平滑图像,   为3×3高斯核的卷积,   为高斯核的标准差。对于   ,我们使用超参数   进行非线性计算得到,即   。最后,通过判决门限将平滑图像转变为黑白掩膜   ,判决门限可以通过下式计算得到:

其中,   为误差函数   的逆函数[6],   和   分别为平滑图像   的均值和标准差,   是决定白色区域占比的超参数。

实验结果
我们进行了大量的实验来展示我们的框架的泛化性能。 由于当前域泛化的相关研究并不多,我们将我们的结果与已知的三种域泛化方法 DPRC [7],  IBN[8] SW[9] 进行了比较。 需要注意的是, DPRC IBN SW 基于不同的骨干 网络 ,即 ResNet-101 (DPRC) ResNet-50 (IBN) VGG16 (SW) 因此,我们在三个不同的骨干网上实现我们的方法,以进行公平的比较。 结果表明,所提出方法都显著优于所有的对比方法。  

表 1 DRPC的实验结果对比

表 2 与IBN的实验结果对比

表 3 与SW的实验结果对比


图 5 在三种跨域设定下的分割结果展示

参考文献

[1] R. Geirhos, P. Rubisch, C. Michaelis, M. Bethge, F. A. Wichmann, and W. Brendel, “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness,” 2018, arXiv:1811.12231. [Online]. Available: http://arxiv.org/abs/1811.12231

[2] J. Hoffman et al., “CyCADA: Cycle-consistent adversarial domain adaptation,” 2017, arXiv:1711.03213. [Online]. Available: http://arxiv.org/abs/1711.03213

[3] K. Bousmalis, N. Silberman, D. Dohan, D. Erhan, and D. Krishnan, “Unsupervised pixel-level domain adaptation with generative adversarial networks,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 3722–3731.

[4] X. Huang and S. Belongie, “Arbitrary style transfer in real-time with adaptive instance normalization,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Oct. 2017, pp. 1501–1510.

[5] G. French, S. Laine, T. Aila, M. Mackiewicz, and G. Finlayson, “Semi-supervised semantic segmentation needs strong, varied perturbations,” 2019, arXiv:1906.01916. [Online]. Available: http://arxiv.org/abs/1906.01916

[6] L. C. Andrews, Special Functions of Mathematics for Engineers, vol. 49. Bellingham, WA, USA: SPIE, 1998.

[7] X. Yue, Y. Zhang, S. Zhao, A. Sangiovanni-Vincentelli, K. Keutzer, and B. Gong, “Domain randomization and pyramid consistency: Simulation-to-real generalization without accessing target domain data,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 2100–2110.

[8] X. Pan, P. Luo, J. Shi, and X. Tang, “Two at once: Enhancing learning and generalization capacities via IBN-Net,” in Proc. Eur. Conf. Comput. Vis. (ECCV), 2018, pp. 464–479.

[9] X. Pan, X. Zhan, J. Shi, X. Tang, and P. Luo, “Switchable whitening for deep representation learning,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 1863–1871.





关于第十一届国际图象图形学学术会议延期的通知
关于延期举办2021华南国际机器视觉展暨CSIG视觉前沿技术与应用研讨会的通知
关于提名2021年度中国图象图形学学会会士候选人的通知
关于2021年度中国图象图形学学会奖励推荐工作的通知
中国图象图形学学会关于组织开展科技成果鉴定的通知
第二届CSIG图像图形技术挑战赛报名进行中
第二届CSIG图像图形技术挑战赛竞赛项目六:多媒体伪造取证大赛

CSIG图像图形中国行承办方征集中

登录查看更多
1

相关内容

语义分割,在机器学习上,多指对一段文本或者一张图片,提取其中有意义的部分,我们将这些有意义的部分称为语义单元,将这些语义单元提取出来的过程,称为语义分割。
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
16+阅读 · 2022年3月17日
视觉识别的无监督域适应研究综述
专知会员服务
32+阅读 · 2021年12月17日
专知会员服务
43+阅读 · 2021年8月20日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
31+阅读 · 2021年2月7日
【NeurIPS 2020】对比学习全局和局部医学图像分割特征
专知会员服务
44+阅读 · 2020年10月20日
一文看尽 CVPR 2022 最新 20 篇 Oral 论文
极市平台
1+阅读 · 2022年4月8日
【速览】IJCV 2022 | 自适应干扰解耦学习的人脸表情识别方法(ADDL)
中国图象图形学学会CSIG
6+阅读 · 2022年2月15日
【速览】TIP 2021丨显著性引导的迭代非对称哈希快速行人再识别
中国图象图形学学会CSIG
0+阅读 · 2021年9月17日
CVPR 2019 Oral 论文解读 | 无监督域适应语义分割
AI科技评论
49+阅读 · 2019年5月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
12+阅读 · 2021年11月1日
Arxiv
15+阅读 · 2019年4月4日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员