IAT：实时完成暗光增强, 曝光矫正的超轻量级Transformer网络

会员服务 ·

IAT：实时完成暗光增强, 曝光矫正的超轻量级Transformer网络

2022 年 7 月 5 日 极市平台

↑ 点击蓝字关注极市平台

作者丨信息门下奶狗@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/535695807

编辑丨极市平台

极市导读

本工作提出了一种超轻量级的快速照明自适应Transforme—IAT，用于实时完成暗光增强和曝光矫正，网络总体的Parameter数量仅仅只需要 90k+。>>加入极市CV技术交流群，走在计算机视觉的最前沿

今年四月入学了UTokyo新办的RCAST的PHD项目，开始了新的PHD生涯。入学前曾在上海AI LAB实习了一段时间，认识了很多厉害的老师和志趣相投的伙伴。这段时间刚好隔离结束，整理一下我ai lab时期完成的工作Illumination-Adaptive-Transformer (IAT)，用于实时完成暗光增强和曝光矫正（也可能是第一次把Transformer用上的工作）。IAT网络是全监督训练范式，网络总体的Parameter数量仅仅只需要 90k+ ，属于超轻量级的实时增强网络（相比之前的Transformer工作SWIN-IR[1]和Restormer[2]等）。

论文链接：https://arxiv.org/abs/2205.14871

代码链接：https://github.com/cuiziteng/Illumination-Adaptive-Transformer

自然场景下存在着各种不良光照场景，如低光照环境和过(欠)曝光环境，相机在不良光照下完成摄影任务时，因为过多/过少的光子数量，和相机内部的处理(如低光照场景需要调高ISO，这会导致噪声也同时放大)以及后续的ISP，往往得到的图像也会收到影响，非正常光照的图像无论感观还是视觉任务都会收到很大的影响。区别于传统的HE或者RetiNex做法以及此前的CNN做法，IAT从光转换的角度出发，通过物理模型建立了一个Transformer-based方法来完成。

基于此前的工作[5]，一张在光照条件下的RGB图像可以通过一个inverse function的Unprocess过程来还原到RAW空间：

在RAW空间上，光照条件下与光照条件下的RAW图像光照强度和input光子数量有关，光照之间可以呈现线性关系，如下：

在光照条件下的RAW图像再通过正向的ISP流程来得到RGB图像，如下公式所示，其中代表一些demosacing以及去噪或者黑电平矫正，表示色彩校正比如白平衡和color转换矩阵，是伽马矫正。

将转换为，所获得如下关系，并且通过泰勒展开：

其中：

我们总体简化为公式：其中是我们希望得到的target图像，是输入的不良光照图像，是像素级别的乘法图，尺寸大小与相同，同时是像素级别的加法图。是控制颜色的色彩矩阵，是gamma矫正的gamma数值。负责控制像素级别的细节信息，同时负责控制整张图像级别的全局信息。

因此我们设计的网络总体包含两个独立分支，local分支和global分支，local分支由两个独立支路负责预测像素级别乘法图和加法图，global分支则是利用attention预测控制图像全局信息的色彩矩阵和gamma数值，最终通过上述公式来完成暗光场景增强和曝光纠正任务，网络结构如下图，其中每个local支路都由三个PEM(Pixel-wise Enhancement Module)模块组成，为了保证轻量性采用了Transformer的结构以及depth-wise convolution。

同时在global branch我们采用attention模块来更好的获得全局信息来产生色彩矩阵以及gamma数值，收到了DETR网络[3]的启发，我们将随机初始化的query输入到模块中来获得3x3的color matrix和1维的gamma数值，通过这样的dynamic query learning策略，随着网络的更新可以自适应的调整操控图像全局信息的矩阵以及gamma，同时可以更好的利用transformer擅长捕捉全局信息的特性。

区别于正统的ISP，我们设计的色彩矩阵与gamma数值都是针对每张图像进行调整，相当于给每张图像都假定一个专属的特定ISP数值来完成增强任务，曝光矫正任务以及高层次视觉任务。