点击上方“CVer”,选择加"星标"置顶
重磅干货,第一时间送达
论文已上传,文末附下载方式
本文作者:傅渥成
https://zhuanlan.zhihu.com/p/142944499
本文已由原作者授权,不得擅自二次转载
论文:https://arxiv.org/abs/2005.09704
代码:https://github.com/Atlas200dk/sample-imageinpainting-HiFill
近年来,基于数据驱动的图像补全方法已经取得较大进展,并在图像编辑领域有所应用。该类方法较传统方法更有潜力,然而,由于内存限制,它们仅能处理低分辨率的图片,图片尺寸通常小于1K,难以满足高清图片编辑的需求。
最近,我的好朋友易子立和他在华为海思研究部的同事们提出了一种名叫“上下文残差聚合(Contextual Residual Aggregation)”的机制,可以通过对背景区域(即所谓“上下文”)中的残差进行加权聚合来生成丢失内容的高频残差,因而可以得到图片中的各种高清细节。
该方法首次实现了使用神经网络对8K图片进行补全,不仅得到了高质量的结果,而且存储空间和耗时都比较小。用这一方法对高清图片进行处理(移除图片中的人物并补全图片),得到的效果如下图所示,这些图片原本都有非常高的分辨率,通过这一方法处理后,图片中仍然有非常逼真和完美的细节,我在这里对图片进行了压缩,感兴趣的朋友可以到论文中查看更清晰的图像。
这一工作中所采用的神经网络结构如下图所示,其中,图片的上半部分展示了上下文残差聚合机制,下半部分展示了生成器的具体结构。
由于神经网络的卷积层只需要在低分辨率的输入和输出上进行操作,因此内存成本和计算时间大大降低。此外,由于该模型可以用低分辨率的图像进行训练,因此对高分辨率训练数据集的需求得到了缓解。这一方法可以对大到8K的图像进行处理,并能达到令人满意的质量,这是之前基于学习的方法无法处理的。
实验结果
目前该论文已被CVPR 2020接收为 oral presentation。该模型已在华为的AI芯片Ascend 310上部署,并在Github上开源,链接:
https://github.com/Atlas200dk/sample-imageinpainting-HiFill
论文下载
在CVer公众号后台回复:CRA,即可下载本论文
重磅!CVer-论文写作与投稿 交流群已成立
扫码添加CVer助手,可申请加入CVer-论文写作与投稿 微信交流群,目前已满1900+人,旨在交流顶会(CVPR/ICCV/ECCV/ICML/ICLR/AAAI等)、顶刊(IJCV/TPAMI等)、SCI、EI等写作与投稿事宜。
同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如论文写作+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加微信群
▲长按关注CVer公众号
请给CVer一个在看!