【导读】
作为计算机视觉领域一年一度的盛会,2017的CVPR会议在美丽的夏威夷檀香山举办,为期6天(2017.7.21-2017.7.26)。根据官方的数据,今年CVPR接受的有效投稿数为2620篇,最终接收了783篇文章,接受率为22%。注册参会人数为4950人,创下CVPR开会记录人数之最,赞助商有127家,赞助金额为859K$, 属于名副其实的计算机视觉盛宴。
计算机视觉高层语义理解(如分类、检测、分割、VQA等)一直是CVPR会议的热点研究问题,但是我们能发现,今年的CVPR会议也格外的关注底层的视觉问题,如图像修复、图像去模糊、去雾、去雨、去雪、去镜片反射、图片超分、图片风格转换、图片合成、图片自动上色等等。今天我们重点介绍CVPR2017中聚焦计算机底层视觉问题的论文,尤其是基于深度学习方法的论文。
所谓风格转移(Style Transfer)就是将一张图片的风格转移到另一张图片上去,这样我们即使绘画基础为零,也能轻松创作一幅梵高式的油画。下面我们介绍相关的论文。
这是来自微软研究院的一篇文章。文章的思路非常清楚,在编码解码重构原图的基础之上,对于每一种style优化一组filter,并将其嵌入到前馈编解码网络中。如下图所示
由于每种style都需要优化得到一组filter,该方法扩展到大量的style上也存在一定的局限性。
关于该方法更多的细节介绍,可参阅博文:http://www.msra.cn/zh-cn/news/features/style-transfer-20170524
这是来自Adobe的一篇文章。相比于大多数风格转移的方法都是偏向于油画风格转移,该文章实现了真实照片之间的风格转移。本文使用的是基于神经网络优化的方法,在A Neural Algorithm of Artistic Style[1]上通过改进目标函数来实现真实风格的转移。由于使用的是优化的方法,因而在速度上会远远低于stylebank等方法。
更多细节可参阅博文:http://blog.csdn.net/victoriaw/article/details/72123681
这也是来自于Adobe的一篇文章,一作Gatys的文章A Neural Algorithm of Artistic Style[1]用神经网络进行风格转移的基础。而本文则是对其早期工作的改进,同样是基于优化的算法。考虑到[1]中style是基于全图计算的,很多时候会出现style溢出的情况,比如将房子的style填充到了天空上。因而作者进行了多种改进:可以选择指定区域进行指定风格转移;指定是否改变原图颜色等等,实现更加符合人类感知意义的风格转移。
更多细节可参阅博文:http://blog.csdn.net/hungryof/article/details/71512406
同样是来自Adobe的一篇文章,文章在做纹理合成的同时,也将其扩展到了风格转移上,实现了一个网络进行多风格转移。模型架构如下所示:
相比stylebank,本文更加精简,每个style只用一个噪声map作为输入即可控制模型进行相应style的转移,而不像stylebank需要优化每个style的filterbank。
依然是Adobe的文章,看来Adobe对风格转移格外喜爱,莫非是Photoshop需要?文章的核心贡献是提出了一个多尺度的style转移网络,从而解决当前单一尺度训练的风格转移网络很难适应不同尺度测试图片的风格转移。网络的架构如下图所示:
腾讯AI Lab在风格转移上也格外重视。本文主要是解决视频的风格转移,相比图片的风格转移,视频需要做到连续帧之间转移后的风格较为一致,才能达到较好的视觉效果,不会出现闪烁的效果。文章在通用的空间loss基础上叠加了一个时序loss,使得网络在实现风格转移的同时保证相邻图片帧相应区域具有相同的风格变换,其网络架构如下所示:
文章最大的贡献是将时序loss引入了style transform网络中。所谓时序loss,简单的理解就是约束相邻帧在相匹配的区域具有相同的风格转移。更多细节可参阅原文。
所谓超分,就是将分辨率图片还原为高分辨率的图片,提高图片的视觉质量。图片超分在今年的CVPR异常火爆,除了有6篇文章录取之外,还举办了一个初具规模的竞赛NTIRE 2017Challenge on Single Image Super-Resolution: Methods and Results,并且举办了一个高质量的workshop。下面我们总结下CVPR17上关于超分的论文。
这是来自Twitter的一篇文章。文章的思路非常简单明了,就是在超分方法中常用的pixel level的均方差loss(即求解网络预测的超分图片和ground truth高清图片之间的均方误差)的基础上,又叠加了现在较为流行的感知loss(perceptualloss)和对抗loss(adversarial loss),得到更加符合视觉感知的高清图片。文章的网络架构如下图所示:
更多细节可以参看博文:https://zhuanlan.zhihu.com/p/25532538
文章的核心思想是通过残差模块的递归使用来得到一个52层网络用于图片超分。为了避免梯度爆炸,采用了递归模块权重共享。网络架构如下图d所示
更多细节可参阅博文: http://blog.csdn.net/wangkun1340378/article/details/74542166
文章的核心思想是构建一个Laplacian超分金字塔,将输入的低分辨率图片逐步超分到所需的分辨率,模型架构如下图所示:
更多细节可以参阅博文: http://blog.csdn.net/wangkun1340378/article/details/74224356
同样是来自Twitter的一篇文章,看来Twitter格外关注用户在社交媒体上的视觉感受。废话少说,文章的思路同样非常清晰,考虑到临近帧之间存在信息冗余,可以利用这种冗余信息来恢复低分辨率图片的高频分量。模型框架如下图所示:
更多细节可参阅博文: http://www.infocool.net/kb/DevelomentMethod/201703/316289.html
图片生成是近几年深度学习运用非常火爆的一个方向,这主要受益于Ian Goodfellow提出的生成式对抗网络(Generative Adversarial Networks, GANs)。GANs在CVPR2017上也收获颇丰,其中Apple的处女座就收获最佳论文。我们下面介绍相关论文。
本篇即为Apple的最佳论文。考虑到人工收集和标注样本的成本巨大,研究者都希望利用廉价的合成样本来训练模型,但是合成样本往往与真实样本存在很大的差异性,如何让生成样本更加接近真实样本并保留自身标注信息,即为本文的出发点。文章的提出的模型如下:
通过一个美化器R将合成样本美化成更加真实的样本,并用判别器D来判断生成的美化样本和真实样本的差距。通过对抗学习即可逐渐生生更加真实的样本。
更多细节参看博文:https://www.leiphone.com/news/201707/IGVe5J0p57WrGkPc.html
即插即用的GANs,文如其名,文章提出的GANs网络可以很方便的将现有的在image classification任务上学习的网络或者在image caption任务上学习的网络嵌入到GANs,用于指导生成指定类别或者指定语义描述的图片。模型很简单,就是神经元响应最大化,如下所示:
比如要生成candle的图片,就优化输入的向量,使得生成器生成的图片经过分类网络后在candle类别上有较大的响应,这种直接优化的手段容易得到非常集中的样本,本文通过改进目标函数,嵌入噪声项来增加生成样本的多样性。
更多细节参看博文:http://www.weidu8.net/wx/1008148315948040
人脸补全,或者马赛克去除,这是GANs比较经典的一个运用场景,文章提出了一个将重构、语义分割、对抗学习等loss整合的一个网络,模型如下如图所示.
模型非常直观,更多细节见: http://blog.csdn.net/m0_37231012/article/details/70808639
【图像去雾、去雨、去雪、去模糊、去镜片反射】
相关论文整理如下:
1) Deep Video Deblurring for Hand-HeldCameras
2) Deep Multi-Scale ConvolutionalNeural Network for Dynamic Scene Deblurring
3) Noise-Blind Image Deblurring
4) From Motion Blur to Motion Flow: ADeep Learning Solution for Removing Heterogeneous Motion Blur
5) Benchmarking Denoising AlgorithmsWith Real Photographs
6) Image Deblurring via ExtremeChannels Prior
7) Simultaneous Stereo VideoDeblurring and Scene Flow Estimation
8) Non-Local Color Image DenoisingWith Convolutional Neural Networks
9) Hyper-Laplacian RegularizedUnidirectional Low-Rank Tensor Recovery for Multispectral Image Denoising
10) Anti-Glare: Tightly ConstrainedOptimization for Eyeglass Reflection Removal
11) Reflection Removal Using Low-RankMatrix Completion
12) Deep Joint Rain Detection andRemoval From a Single Image
13) Removing Rain From Single Imagesvia a Deep Detail Network
14) Fast Haze Removal for NighttimeImage Using Maximum Reflectance Prior
15) Video Desnowing and DerainingBased on Matrix Decomposition
【边沿、直线检测】
1) Deep Crisp Boundaries
2) MCMLSD: A Dynamic ProgrammingApproach to Line Segment Detection
3) Richer Convolutional Features forEdge Detection
【室外光强检测】
1) Deep Outdoor IlluminationEstimation
【其他】
1) Deep Image Matting
2) Wetness and Color From a Single MultispectralImage
3) FC4: Fully Convolutional ColorConstancy With Confidence-Weighted Pooling
4) Specular Highlight Removal inFacial Images
5) Deep Image Harmonization
6) Annotating Object Instances With aPolygon-RNN
7) Why You Should Forget Luminance Conversionand Do Something Better
8) Fast Fourier Color Constancy
【备注】
1. CVPR2017论文下载地址见: http://openaccess.thecvf.com/CVPR2017.py
CVPR现场Tutoral、Oral、Spotlights见https://www.youtube.com/channel/UC0n76gicaarsN_Y9YShWwhw