【速览】ACM MM-21丨从合成到真实：无标签真实数据协同驱动的图像去雾算法

2021 年 9 月 9 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

从合成到真实：无标签真实数据协同驱动的图像去雾算法

刘烨

^{1*}

, 朱磊

^{2*}

, 裴顺达

^1

, 付华柱

^3

, 秦璟

^4

, 张青

^5

, 万亮

^{1+}

, 冯伟

^1

^{1}

天津大学 ,

^{2}

剑桥大学,

^{3}

阿联酋起源人工智能研究院,

^{4}

香港理工大学,

^{5}

中山大学

ACM MM-21

共同一作：刘烨, 朱磊

通讯作者：万亮

推荐理事：林宙辰

原文标题：From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real Data

原文链接： https://arxiv.org/abs/2108.02934v1

原文代码链接： https://github.com/liuye123321/DMT-Net.

◆ ◆ ◆ ◆

摘要

单幅图像去雾是一项具有挑战性的任务，合成训练数据和真实测试图像之间的域迁移（domain shift）通常会导致现有方法结果的退化。为了解决这个问题，本文提出了一种将有标签的合成训练数据与无标签的真实数据协同训练的图像去雾框架。首先，本文提出了一个基于特征解耦的图像去雾网络（DID-Net），该网络根据雾的生成过程的物理模型，将输入图像的特征解耦为三个特征分量，即无雾图像特征分量、传输图特征分量和全球大气光特征分量。对解耦后的特征分量，本文采用由粗到细的两阶段方式分别进行预测。然后，采用基于特征解耦的半监督mean-teacher网络（DMT-Net）对无标签的真实数据进行训练，以提高网络模型的去雾能力。

引言

在视觉分析中，雾的存在会导致图像内容的失真以及预测精度的下降。与传统基于先验的去雾方法相比，基于CNN的方法取得了更好的图像去雾能力，但存在一些明显局限。首先，这些方法通常利用合成有雾图像训练网络。由于合成训练图像和真实测试图像之间存在域迁移，这些方法面对真实图像时去雾性能会降低。其次，根据雾生成过程的物理模型

I=J*T+A*\left ( 1-T \right )

可知，有雾图像

I

是由传输图

T

、全球大气光

A

和无雾图像

J

生成的，因此对有雾图像提取的CNN特征包括物理模型中的多个因素。然而，现有的很多方法仅使用提取的特征来预测其中一个因素（例如，传输图或无雾图像），从而降低了图像去雾性能。

为了解决这些问题，本文提出了一种基于特征解耦的半监督学习框架（DMT-Net），利用基于物理模型的特征解耦和基于真实数据的半监督学习来提高图像去雾能力。具体而言，本文首先提出了一个基于特征解耦的去雾网络（DID-Net），将输入图像的特征解耦为不同尺度的三个特征分量，分别是用于传输图估计的特征，用于无雾图像估计的特征，和用于全球大气光估计的特征。之后，对相邻尺度的不同特征分量分别进行特征融合，以预测传输图、无雾图像和全球大气光。另一方面，为了利用真实有雾图像，本文采用基于mean-teacher的半监督学习框架，最小化合成数据的监督损失和真实数据的一致性损失，以优化网络模型。

本文的主要贡献点总结如下：

•提出了一个基于特征解耦的半监督学习框架，利用基于物理模型的特征解耦和基于真实数据的半监督学习来提高图像去雾能力

•设计了一个基于特征解耦的图像去雾网络（DID-Net），从粗到细的预测传输图、无雾图像和大气光。

•采用基于特征解耦的半监督网络（DMT-Net）对有标签的合成数据进行监督学习，对无标签的真实数据利用学生网络和老师网络的一致性约束进行半监督学习。

方法

图1显示了DMT-Net的网络结构，该网络采用特征解耦的方式对有标签的合成数据进行监督学习，对无标签的真实数据进行半监督学习。具体地说，将有标签的合成数据输入到学生网络，获得三个分量的粗略预测（ $S_{J},S_{T},S_{A}$ ）以及精确预测（ $S_{\hat{J}},S_{\hat{T}},S_{\hat{A}}$ ），同时计算出对应的重建预测 $S_I$ 和 $S_{\hat{I}}$ ，使用标签对预测结果进行监督。无标签的真实数据则同时输入到学生网络和老师网络，利用学生网络和老师网络输出结果的一致性约束来对无标签数据进行半监督学习。

图 1 DMT-Net的网络结构

2.1 基于特征解耦的图像去雾网络DID-Net

图 2 DID-Net的网络结构

图2为DID-Net的网络结构图。首先对输入的有雾图像I提取一组具有不同空间分辨率的特征

EF_{i}

（1≤ i≤ 5)，并设计三个独立的分支,将每组特征解耦为三个特征分量，分别为无雾图像特征

DFJ_{i}

、传输图特征

DFT_{i}

和环境光特征

DFA_{i}

。然后，设计一种由粗到细的机制，根据解耦的特征来估计无雾图像

J

、传输图

T

和大气光

A

。

这里以生成无雾图像预测的分支为例来描述DID-Net的工作原理。该分支使用Upsampling和RCAB模块对低分辨率特征

DFJ_{i}

进行上采样以及特征增强。随后，对上采样特征以及高分辨率解耦特征

DFJ_{i-1}

进行拼接，并使用1x1卷积对拼接后的特征进行降维，得到高分辨率特征

H_{i-1}

。上述过程可用公式表述为：

其中

M

表示相邻尺度特征的融合，

\emptyset_{U-RCAB}

表示使用Upsampling和RCAB模块对低分辨率特征进行上采样以及特征增强。

得到粗略预测

P_\mathit{J}

的过程为：

P_\mathit{J}=conv\left ( M\left ( DFJ_{1},H_{2} \right ) \right ),

H_{i}=M\left ( DFJ_{i},H_{i+1} \right ),\left ( 2\leq i\leq 4 \right ).

为了进一步提高预测的准确性，DID-Net把粗略预测的结果

P_J

再次输入到一个残差结构的U-Net网络，得到优化预测

\hat{P_J}

，该过程可表述为：

\hat{P_J}=P_{J}+U\left ( P_{J} \right ),

其中，U表示U-Net模块。

2.2 有标签数据的监督损失

合成数据的传输图、无雾图像和大气光是已知的，因此我们对合成数据进行监督学习，最小化预测结果与标签之间的差异，构建如下的损失函数：

\mathcal{L}^{s}\left ( x \right )=\mathcal{L}_{J}^{s}+\alpha _{1}\mathcal{L}_{T}^{s}+\alpha _{2}\mathcal{L}_{A}^{s}+\alpha _{3}\mathcal{L}_{rec}^{s}

\mathcal{L}_{J}^{s}

表示粗略预测的无雾图像

P_J

以及精确预测的无雾图像

\hat{P_J}

与无雾图像标签

G_J

之间的差异。

\mathcal{L}_{T}^{s}

，

\mathcal{L}_{A}^{s}

，

\mathcal{L}_{rec}^{s}

分别表示粗略预测以及精确预测的传输图，大气光和重建误差与对应标签之间的差异。以

\mathcal{L}_{J}^{s}

为例，其定义方式为：

$\mathcal{L}_{J}^{s}=\left | G_{J}-P_{J} \right |+\left | G_{J}-\hat{P_{J}} \right |$ ，其中 $P_J$ 为粗略预测的结果， $P_{\hat{J}}$ 为精确预测的结果， $G_J$ 为监督学习的标签。

2.3 无标签数据的一致性损失

对无标签真实数据，我们考虑学生网络和老师网络预测结果的一致性约束，够建如下所示的一致性损失函数：

$\mathcal{L}^{c}\left ( \mathbf{y} \right )=\mathcal{L}_{J}^{c}+\alpha _{4}\mathcal{L}_{T}^{c}+\alpha _{5}\mathcal{L}_{A}^{c}+\alpha _{6}\mathcal{L}_{rec}^{c}$ ,

\mathcal{L}_{J}^{c}

表示学生网络无雾图像预测结果与老师网络无雾图像预测结果之间的差异。

\mathcal{L}_{T}^{c}

，

\mathcal{L}_{A}^{c}

，

\mathcal{L}_{rec}^{c}

分别表示学生网络预测的传输图，大气光以及重建误差与老师网络预测结果之间的差异。以

\mathcal{L}_{J}^{c}

为例，其定义方式为：

\mathcal{L}_{J}^{c}=\left | S_{J}-T_{J} \right |+\left | S_{\hat{J}}-T_{\hat{J}} \right |

，其中

S_J

为学生网络粗略预测的结果，

T_J

为老师网络粗略预测的结果，

S_{\hat{J}}

为学生网络精确预测的结果，

T_{\hat{J}}

为老师网络精确预测的结果。

实验

3.1 数据集

我们使用现有工作[1]中的两个公共数据集SOTS和HazeRD。其中SOTS数据集由1000个测试图像组成，HazeRD包含15幅具有更真实雾的室外图像。除了SOTS和HazeRD之外，还创建了一个包含4000幅图像的合成数据（Haze4K），其中每张有雾图像都有无雾图像、传输图和大气光对应的标签。具体来说，随机选取NYU-Dept [2]数据集里的500张室内图像和OTS[3]数据集里的500张室外图像，共收集了1000张干净的图像。其中，从室内图像集（125幅图像）和室外图像集（125幅图像）中随机选择250幅图像作为测试集，其余750幅图像作为训练集。之后，对于每个干净的图像生成4张有雾图像。因此，Haze4K共有4000张图像，其中3000张训练图像，1000张测试图像。

3.2 在合成图像上的实验结果

实验对比了2种传统的基于先验知识的方法（DCP[4]和NLD[5]）以及11种基于CNN的方法。表1和图3分别展示了不同去雾方法的PSNR和SSIM以及可视化效果。可以看到，本文提出的基于特征解耦的半监督去雾网络可以更好地完成图像去雾任务。

表 1 不同方法的量化结果

图 3 合成图像上的可视化效果

3.3 在真实图像上的实验结果

图4直观地比较了真实世界有雾照片上的去雾结果，这些照片来自于RESIDE数据集[3]。方法DA[1]存在颜色失真的问题，GDN[6]倾向于使区域变暗；参见图4的第一幅图像（车道区域）。AOD-Net、MSBDN、FFA-Net和DM²F-Net仅仅去除了少量雾，生成的图像中仍存在大量的雾；参见图4的放大视图。本文的方法可以在产生逼真颜色的同时更有效地去雾。

图 4 真实图像上的可视化效果

3.4 消融实验

为了探讨不同模块的有效性，本文进行了一系列消融实验。第一行是通过删除预测传输图和大气光的两个分支、删除预测细化和删除无标签数据来构建的。第二行使用三个分支对输入图像进行特征解耦，对解耦的特征预测三个分量（A，T和J）。第三行通过添加U-Net来对预测结果进一步优化。第四行则是本文提出来的基于特征解耦的半监督网络模型。

表 2 消融实验的量化结果

参考文献

[1] Yuanjie Shao, Lerenhan Li, Wenqi Ren, Changxin Gao, and Nong Sang. 2020. Domain Adaptation for Image Dehazing. In CVPR. 2805–2814.

[2] Nathan Silberman, Derek Hoiem, Pushmeet Kohli, and Rob Fergus. 2012. Indoor segmentation and support inference from rgbd images. In ECCV. 746–760.

[3] Boyi Li, Wenqi Ren, Dengpan Fu, Dacheng Tao, Dan Feng, Wenjun Zeng, and Zhangyang Wang. 2018. Benchmarking single-image dehazing and beyond. TIP 28, 1 (2018), 492–505.

[4] Kaiming He, Jian Sun, and Xiaoou Tang. 2011. Single image haze removal using dark channel prior. TPAMI 33, 12 (2011), 2341–2353.

[5] Dana Berman and Shai Avidan. 2016. Non-local image dehazing. In CVPR. 1674– 1682.

[6] Xiaohong Liu, Yongrui Ma, Zhihao Shi, and Jun Chen. 2019. Griddehazenet: Attention-based multi-scale network for image dehazing. In ICCV. 7313–7322.

关于第十一届国际图象图形学学术会议延期的通知

关于延期举办2021华南国际机器视觉展暨CSIG视觉前沿技术与应用研讨会的通知

关于2021年度中国图象图形学学会高级会员评选工作的通知

关于2021年度中国图象图形学学会奖励推荐工作的通知

中国图象图形学学会关于组织开展科技成果鉴定的通知

CSIG图像图形中国行承办方征集中

登录查看更多

相关内容

ACM MM

关注 5

ACM 国际多媒体会议（ACM International Conference on Multimedia）是计算机科学领域中多媒体领域的首要国际会议。多媒体研究的重点是整合不同数字形式（包括图像，文本，视频，音乐，传感器数据，口头音频）提供的多种视角。自1993年以来，ACM多媒体一直将学术界和工业界的研究人员和从业人员汇聚在一起，提出创新的研究成果并讨论最新进展。会议的一个特别部分是艺术计划，该计划探索计算机科学与艺术的界限。官网地址：http://dblp.uni-trier.de/db/conf/mm/

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

专知会员服务

34+阅读 · 2022年1月12日

TPAMI 2021｜VideoDG:首个视频领域泛化模型

专知会员服务

21+阅读 · 2021年12月31日

【ICML2021】协同对抗鲁棒的迁移学习

专知会员服务

25+阅读 · 2021年6月17日

【CVPR2021】基于跨领域自适应聚类的半监督领域自适应算法

专知会员服务

58+阅读 · 2021年5月19日