CVPR2017速递之-- 深度学习在底层视觉任务中的运用

2017 年 8 月 23 日 微信AI 程衍华

【导读】

作为计算机视觉领域一年一度的盛会，2017的CVPR会议在美丽的夏威夷檀香山举办，为期6天(2017.7.21-2017.7.26)。根据官方的数据，今年CVPR接受的有效投稿数为2620篇，最终接收了783篇文章，接受率为22%。注册参会人数为4950人，创下CVPR开会记录人数之最，赞助商有127家，赞助金额为859K$, 属于名副其实的计算机视觉盛宴。

计算机视觉高层语义理解（如分类、检测、分割、VQA等）一直是CVPR会议的热点研究问题，但是我们能发现，今年的CVPR会议也格外的关注底层的视觉问题，如图像修复、图像去模糊、去雾、去雨、去雪、去镜片反射、图片超分、图片风格转换、图片合成、图片自动上色等等。今天我们重点介绍CVPR2017中聚焦计算机底层视觉问题的论文，尤其是基于深度学习方法的论文。

风格转移

所谓风格转移（Style Transfer）就是将一张图片的风格转移到另一张图片上去，这样我们即使绘画基础为零，也能轻松创作一幅梵高式的油画。下面我们介绍相关的论文。

这是来自微软研究院的一篇文章。文章的思路非常清楚，在编码解码重构原图的基础之上，对于每一种style优化一组filter，并将其嵌入到前馈编解码网络中。如下图所示

由于每种style都需要优化得到一组filter，该方法扩展到大量的style上也存在一定的局限性。

关于该方法更多的细节介绍，可参阅博文：http://www.msra.cn/zh-cn/news/features/style-transfer-20170524

这是来自Adobe的一篇文章。相比于大多数风格转移的方法都是偏向于油画风格转移，该文章实现了真实照片之间的风格转移。本文使用的是基于神经网络优化的方法，在A Neural Algorithm of Artistic Style[1]上通过改进目标函数来实现真实风格的转移。由于使用的是优化的方法，因而在速度上会远远低于stylebank等方法。

更多细节可参阅博文：http://blog.csdn.net/victoriaw/article/details/72123681

这也是来自于Adobe的一篇文章，一作Gatys的文章A Neural Algorithm of Artistic Style[1]用神经网络进行风格转移的基础。而本文则是对其早期工作的改进，同样是基于优化的算法。考虑到[1]中style是基于全图计算的，很多时候会出现style溢出的情况，比如将房子的style填充到了天空上。因而作者进行了多种改进：可以选择指定区域进行指定风格转移；指定是否改变原图颜色等等，实现更加符合人类感知意义的风格转移。

更多细节可参阅博文：http://blog.csdn.net/hungryof/article/details/71512406

同样是来自Adobe的一篇文章，文章在做纹理合成的同时，也将其扩展到了风格转移上，实现了一个网络进行多风格转移。模型架构如下所示：

相比stylebank，本文更加精简，每个style只用一个噪声map作为输入即可控制模型进行相应style的转移，而不像stylebank需要优化每个style的filterbank。

依然是Adobe的文章，看来Adobe对风格转移格外喜爱，莫非是Photoshop需要？文章的核心贡献是提出了一个多尺度的style转移网络，从而解决当前单一尺度训练的风格转移网络很难适应不同尺度测试图片的风格转移。网络的架构如下图所示：

腾讯AI Lab在风格转移上也格外重视。本文主要是解决视频的风格转移，相比图片的风格转移，视频需要做到连续帧之间转移后的风格较为一致，才能达到较好的视觉效果，不会出现闪烁的效果。文章在通用的空间loss基础上叠加了一个时序loss，使得网络在实现风格转移的同时保证相邻图片帧相应区域具有相同的风格变换，其网络架构如下所示：

文章最大的贡献是将时序loss引入了style transform网络中。所谓时序loss，简单的理解就是约束相邻帧在相匹配的区域具有相同的风格转移。更多细节可参阅原文。

图像超分

所谓超分，就是将分辨率图片还原为高分辨率的图片，提高图片的视觉质量。图片超分在今年的CVPR异常火爆，除了有6篇文章录取之外，还举办了一个初具规模的竞赛NTIRE 2017Challenge on Single Image Super-Resolution: Methods and Results，并且举办了一个高质量的workshop。下面我们总结下CVPR17上关于超分的论文。

这是来自Twitter的一篇文章。文章的思路非常简单明了，就是在超分方法中常用的pixel level的均方差loss（即求解网络预测的超分图片和ground truth高清图片之间的均方误差）的基础上，又叠加了现在较为流行的感知loss(perceptualloss)和对抗loss(adversarial loss)，得到更加符合视觉感知的高清图片。文章的网络架构如下图所示：

更多细节可以参看博文：https://zhuanlan.zhihu.com/p/25532538

文章的核心思想是通过残差模块的递归使用来得到一个52层网络用于图片超分。为了避免梯度爆炸，采用了递归模块权重共享。网络架构如下图d所示

更多细节可参阅博文: http://blog.csdn.net/wangkun1340378/article/details/74542166

文章的核心思想是构建一个Laplacian超分金字塔，将输入的低分辨率图片逐步超分到所需的分辨率，模型架构如下图所示：

更多细节可以参阅博文: http://blog.csdn.net/wangkun1340378/article/details/74224356

同样是来自Twitter的一篇文章,看来Twitter格外关注用户在社交媒体上的视觉感受。废话少说，文章的思路同样非常清晰，考虑到临近帧之间存在信息冗余,可以利用这种冗余信息来恢复低分辨率图片的高频分量。模型框架如下图所示:

更多细节可参阅博文: http://www.infocool.net/kb/DevelomentMethod/201703/316289.html

图片生成

图片生成是近几年深度学习运用非常火爆的一个方向，这主要受益于Ian Goodfellow提出的生成式对抗网络(Generative Adversarial Networks, GANs)。GANs在CVPR2017上也收获颇丰，其中Apple的处女座就收获最佳论文。我们下面介绍相关论文。

本篇即为Apple的最佳论文。考虑到人工收集和标注样本的成本巨大，研究者都希望利用廉价的合成样本来训练模型，但是合成样本往往与真实样本存在很大的差异性,如何让生成样本更加接近真实样本并保留自身标注信息,即为本文的出发点。文章的提出的模型如下：

通过一个美化器R将合成样本美化成更加真实的样本,并用判别器D来判断生成的美化样本和真实样本的差距。通过对抗学习即可逐渐生生更加真实的样本。

更多细节参看博文：https://www.leiphone.com/news/201707/IGVe5J0p57WrGkPc.html

即插即用的GANs,文如其名，文章提出的GANs网络可以很方便的将现有的在image classification任务上学习的网络或者在image caption任务上学习的网络嵌入到GANs,用于指导生成指定类别或者指定语义描述的图片。模型很简单，就是神经元响应最大化，如下所示：

比如要生成candle的图片，就优化输入的向量，使得生成器生成的图片经过分类网络后在candle类别上有较大的响应，这种直接优化的手段容易得到非常集中的样本，本文通过改进目标函数，嵌入噪声项来增加生成样本的多样性。

更多细节参看博文：http://www.weidu8.net/wx/1008148315948040

人脸补全，或者马赛克去除,这是GANs比较经典的一个运用场景，文章提出了一个将重构、语义分割、对抗学习等loss整合的一个网络,模型如下如图所示.

模型非常直观,更多细节见: http://blog.csdn.net/m0_37231012/article/details/70808639

【图像去雾、去雨、去雪、去模糊、去镜片反射】

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

基于深度神经网络的少样本学习综述

专知会员服务

173+阅读 · 2020年4月22日

【芝加哥大学】可变形的风格转移，Deformable Style Transfer

专知会员服务

31+阅读 · 2020年3月26日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

基于深度网络的自监督视觉特征学习综述，附24页论文下载

专知会员服务

66+阅读 · 2020年1月15日

【综述】图像去噪的深度学习:综述，36页pdf，Deep Learning on Image Denoising: An overview

专知会员服务

71+阅读 · 2019年12月31日

无监督深度学习——这《元监督视觉学习》132页伯克利博士论文带你回顾无监督视觉应用最新发展脉络

专知会员服务

30+阅读 · 2019年10月26日

深度学习自然语言处理综述，266篇参考文献

专知会员服务

231+阅读 · 2019年10月12日

论文盘点：CVPR 2019 - 文本检测专题

PaperWeekly

14+阅读 · 2019年5月31日

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

计算机视觉life

16+阅读 · 2019年4月25日

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

干货 | 张宇伦：基于残差密集网络的图像超分辨率（CVPR 2018 亮点论文）

AI研习社

4+阅读 · 2018年8月3日

CVPR 2018 中国论文分享会之「深度学习」

AI科技评论

11+阅读 · 2018年5月27日

CNN图像风格迁移的原理及TensorFlow实现

数据挖掘入门与实战

5+阅读 · 2018年4月18日

如何上手深度学习中的图像领域？有这个资源库就够了

数据挖掘入门与实战

5+阅读 · 2018年4月13日

干货 | 深度学习之卷积神经网络(CNN)的模型结构

机器学习算法与Python学习

12+阅读 · 2017年11月1日

教程 | 无需复杂深度学习算法，基于计算机视觉使用Python和OpenCV计算道路交通

机器之心

4+阅读 · 2017年10月22日

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Efficient Tracking Proposals using 2D-3D Siamese Networks on LIDAR

Arxiv

4+阅读 · 2019年3月25日

A General and Adaptive Robust Loss Function

Arxiv

8+阅读 · 2018年11月5日

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月6日

Recurrent Fusion Network for Image Captioning

Arxiv

3+阅读 · 2018年7月31日

"Factual" or "Emotional": Stylized Image Captioning with Adaptive Learning and Attention

Arxiv

4+阅读 · 2018年7月29日

Signal Processing and Piecewise Convex Estimation

Arxiv

4+阅读 · 2018年3月14日

Interpretable Convolutional Neural Networks

Arxiv

22+阅读 · 2018年2月14日

Generating Thematic Chinese Poetry using Conditional Variational Autoencoders with Hybrid Decoders

Arxiv

8+阅读 · 2018年1月30日

A Deep Reinforcement Learning Chatbot (Short Version)

Arxiv

13+阅读 · 2018年1月20日

VIP会员

CVPR2017速递之-- 深度学习在底层视觉任务中的运用

相关内容

知识荟萃

更多