点击上方“CVer”,选择加"星标"置顶
重磅干货,第一时间送达
本文转载自:机器之心 | 作者:Jheng-Wei Su等
为黑白照片上色不难,但难在如何实现「以假乱真」。在这篇 CVPR 2020 论文中,研究者提出了一种全新的图像着色方法,通过检测出灰度图像中的不同目标,再对图像进行着色,使预测出的彩色图片更加接近真实色彩。
给黑白图像自动上色一直是个很有趣的话题,这方面的技术可广泛应用于旧照片和旧视频的修复,使百年旧照重新焕发生机。我们也会经常看到一些黑白照片修复成品,即使是上个世纪早期的旧照片,经过着色以后效果也十分惊艳。
1936 年,伦敦滑铁卢车站,人们第一次看到电视机。
但图像着色本质上是一个不适定问题(ill-posed problem),因为它具备多模态不确定性。也就是说,灰度图像的颜色是单通道的,但着色时却有多种选择。
以往的方法虽然也能在某些图像中达到相当不错的生成效果,但还没有一种方法能够很好地解决包含多个物体的图像着色问题,主要原因是现有的模型都是在整个图像上学习然后着色,在图形和背景无法清晰分离的情况下,这些模型无法很好地学习到有用的对象语义。
最近,
来自国立清华大学和弗吉尼亚理工学院的研究者提出了一种新的实例感知着色方法
。这一方法通过检测灰度图像中的不同目标,从而对图像进行着色,使预测出的彩色图片更加接近真实色彩。
论文地址:https://arxiv.org/abs/2005.10825
GitHub 地址:https://github.com/ericsujw/InstColorization
Colab 地址:https://colab.research.google.com/github/ericsujw/InstColorization/blob/master/InstColorization.ipynb
现有方法的缺陷在于无法预测多对象实例图像中的合理颜色,上面一组图的滑雪者和下面一组图中的车辆都属于此类。由于图形和背景的分离不够清晰,着色结果也会出现一些「混乱」,比如使用 Deoldify 方法对第二组橙子图像进行着色,生成结果就会整体偏绿色。
研究者利用现有的目标检测器获取裁剪后的图像,并使用实例着色网络提取对象级特征。随后,也是使用类似的网络去提取全图特征,并使用融合模块去填充对象级特征和图像级特征,来预测最终的颜色。研究者使用了几个大规模数据集,让着色网络和融合模块从中学习相应规则,实验结果表明,这一方法在多项 baseline 方法的对比评估中均实现 SOTA。
论文所提方法以灰度图像
作为输入,以端到端的方式预测其丢失的在 CIE L∗a∗b∗色彩空间中的两个色彩通道
首先,研究者使用现成经过预训练的目标检测器,从灰度图像中获得多个目标的边界框
。使用检测到的边界框从原灰度图中裁剪出不同物体,将裁剪后的图像调整大小后产生一系列实例图像
。接着,将每个实例图像 X_i 与灰度图像 X 分别输入到实例着色网络(instance colorization network)与全图着色网络(full-image colorization network)中。两个网络使用相同的结构,但网络权值各不相同。
最后,研究者使用一个融合模块来将每一层中的所有实例特征
与全图特征 f^X_j 相融合。融合后的全图特征之后被输入下一层网络中。重复以上过程直到最后一层,并获得预测的彩色图像 Y。研究者首先训练了全图网络,之后训练实例网络,最后冻结以上两个网络来训练特征融合模块。
该研究的方法利用检测到的对象实例来改进图像着色。为此,研究者采用一个现成经过预训练的 Mask R-CNN 作为目标检测器。
如上图 3 所示,该研究的网络包含两个着色网络分支,一个是为实例图像着色,另一个是为全图像着色。在选择这两个网络的结构时,要求两个网络有相同的层数,以利于特征融合。研究者采用了 Zhang 等人提出的着色网络作为骨干网络。
研究者在此讨论了如何用多个实例特征来融合全图像特征,以达到更好的着色效果。图 4 展示了该融合模块架构。由于融合发生在着色网络的多个隐含层中,简单起见,研究者只给出了在第 j 层的融合模块。将该模块用于其他层遵循类似流程。
研究采用如下δ = 1 的平滑 l_1 损失函数:
研究者给出了多个实验结果来验证所提出的实例感知着色方法。研究者在三个大规模数据集上对所提方法进行了定量评估,并结果与 SOTA 着色方法做了比较。之后还给出了对一些有挑战性图像的着色样例。
在 ImageNet ctest10k、COCO-Stuff、Places205 这三个数据集上的定量比较结果如表 1 所示:
表 2 总结了在 COCO-Stuff 数据集上所有实例的平均性能对比。
下图展示了论文中提出的方法与其他基线方法在上色效果上的比较结果。研究者观察到,他们提出的方法在视觉质量上有着稳定的提升,尤其是对于那些包含多个实例的场景。
图 5:本文提出的方法与 SOTA 方法效果的比较。
图 6 显示了融合实例级别与完整图像级别特征的,在多个阶段上所学到的蒙版。实验表明,本文提出的实例感知流程可以改善复杂场景的视觉质量。
论文下载
在CVer公众号后台回复:上色0601,即可下载本论文
重磅!CVer-论文写作与投稿 交流群已成立
扫码添加CVer助手,可申请加入CVer-论文写作与投稿 微信交流群,目前已满1900+人,旨在交流顶会(CVPR/ICCV/ECCV/ICML/ICLR/AAAI等)、顶刊(IJCV/TPAMI等)、SCI、EI等写作与投稿事宜。
同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如论文写作+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加微信群
▲长按关注CVer公众号
请给CVer一个在看!