独家 | 腾讯优图高级研究员沈小勇：ICCV 2017 一键卸妆 & 视频超分辨率论文详解

2017 年 12 月 6 日 AI科技评论

AI 科技评论按：ICCV（The International Conferenceon Computer Vision）是计算机视觉领域的三大顶级会议之一，腾讯优图实验室在 ICCV 2017 中共投稿 15 篇论文，其中 12 篇被大会录用。录用论文中，被誉为「一键卸妆」的论文 Makeup-Go: Blind Reversion of Portrait Edit 在社会各界引起了强烈反响，引爆社交媒体。另一篇超分辨率的论文 Detail-revealing Deep Video Super- resolution（细节还原深度视频超分辨率）相关技术也已经在 QQ 空间成功落地，各项性能指标均超过谷歌的同类技术。

近日，AI 科技评论邀请到腾讯优图实验室高级研究员沈小勇，他为我们详细介绍了腾讯优图实验室和前面提到的两篇论文：「一键卸妆」（Makeup-Go: Blind Reversion of Portrait Edit）和视频超分辨率（Detail-revealing Deep Video Super- resolution）。

嘉宾简介：沈小勇，腾讯优图实验室高级研究员，浙江大学本科、硕士，香港中文大学博士、博士后。主要研究深度学习在图像视频处理理解中的应用，包括图像增强、分割、物体检测识别、运动与深度估计等，在 CVPR、ICCV、ECCV 等顶级会议和 TPAMI、TOG 等顶级 Journal 上发表论文超过 15 篇。

以下为他的分享内容：

AI 科技评论的网友们，大家晚上好，非常高兴能在这里进行直播，我今天分享的题目是《视觉 AI IP 输出者：腾讯优图 ICCV 2017 论文》，我是沈小勇，腾讯优图高级研究员，目前在优图主要进行人工智能的技术研究及开发工作。

这是我的个人主页，我本科和研究生就读于浙江大学，博士就读于香港中文大学。

下面是对腾讯优图的简介，我们主要立足于人脸识别、图像识别、音频识别三个方面的研究。

下面是优图在基础研究、平台数据以及业务场景三方面融合的生态。

这是优图实验室2017年最新的技术突破。

今天我重点要跟大家分享的是腾讯优图在 ICCV 2017 上发表的其中 2 篇论文。

Makeup-Go: Blind Reversion of Portrait Edit

我分享的第一篇论文是 Makeup-Go: Blind Reversion of Portrait Edit，即一键卸妆，给你一张处理过的图片（比如经过美图秀秀把人变白、变美之后的图片），把软件处理之前的样子恢复出来。一般情况下，现在有很多图片处理 APP，我们想知道在美颜处理之前是照片是什么样。

下面是未经过美化的图片。

美化之后脸上的痘痘消失了，皮肤变得非常光滑。

想要把图片恢复成处理之前的状态，难点在哪里？

简单暴力的方法是既然有输入图片和输出图片，能不能训练出一个神经网络自动学会处理图片。在这里我们做了一个简单实验，是2016年 CVPR 的一篇文章，一个非常深的网络。

下面是输入和输出。从这里可以发现，即使用了一个那么深、学习能力那么强的网络，还是和最初的图像有很大差别，比如说皱纹和雀斑，都恢复得不是那么完美。

为什么现在的 CNN 网络不能恢复原来的图片？图像里包含很多东西，如果只是简单用 CNN 去回归，只能回归出非常少的 component，我们在图像恢复时发现了一个非常重要的信息，叫 component domination effect，这篇文章重点针对 component domination effect 来改变一键卸妆效果。

首先我们对 L2 loss 进行分析，可以对其进行分解，F 是神经网络的输出结果，y 是 ground truth。

我们在这里发现，实际上可以对 L2 loss 进行分解，分解成 PCA 不同 component 的线性组合。

可以继续对其进行展开。

怎么理解 component，我们从大到小分解出来。

这里是我们所做的网络，称为 component regression network。相当于把图经过 PCA 分解为不同的成分，接下来我们希望通过不同的 subnetwork 把每一个 component 都能回归得很好，最后把各个 component 综合在一起，得到最终的结果。

接下来是我们的实验结果，可以证明这个网络对于一键卸妆是非常有效的。绿色线条是我们的结果，在 component 为 40 时就能达到比较好的效果。大家可以看到与 Euclidean loss 和 Perception loss 的比较。

下面的这张图经过美图秀秀处理，把雀斑、皱纹都去除了，可以看到我们复原的结果与 ground truth 修饰的结果的比较。

下面是一张 overly touched 图片，图像过度平滑，颜色都改变了，我们恢复的结果能把丢失的细节很好地复原出来。

下面是更多的结果，我们在网上随便找的照片，可以很好地把图中雀斑和皱纹恢复出来。

这个网络并不对所有案例都有效，下面是对 Trump 的图片的处理，虽然能把图片恢复出来，但和 ground truth 比还是有差别。

这个工作的总结如下：一、我们在做图像修复时发现了非常重要的性质 component domination effect；二，提出 component regression network，在很多领域有非常强的应用。

Detail-revealing Deep Video Super- resolution

第二篇论文是 Detail-revealing Deep Video Super-resolution，目前做出来的效果在业界非常好。

首先讲一下我们做视频超分辨率的 motivation。一，这是一个非常传统和基础的问题；二，应用非常非常多，比如说在监控场景下分辨车牌号。

对于视频超分辨率之前的工作，可以分为两类，一类是 image SR，一类是 video SR，具体的研究工作如 PPT 所示。我们这篇文章在别人的基础上把研究向前推进了一步。

下面是这个问题的难点。一是怎么去得到非常 effective 的网络，二是模型的问题。

首先介绍我们方法的优势：一是 sub-pixel motion 更好的运用，二是在视觉和数量上我们的结果比之前好很多。另外这个模型是 fully scalable 的，可以是任何输入大小，实现任何倍数放大。

下面是我们方法的网络。怎么解决刚才提到的那些问题呢？一是设置 Fully convolutional，二是 SPMC 层没有任何参数，三是 Conv LSTM。

下面是我们的分析。对这个网络，我们输入三个相同的帧，效果不是很好，而输入三个连续的帧可以得到比较好的效果。

第二个分析是将 SPMC Layer 和 Baseline 进行比较，SPMC 在此处效果更好。

通过对比可以看到我们的方法比之前的 Bicubic、BayesSR、DESR、VSRNet 都要好。

最后分析下运行时间，我们的方法优于 BayesSR、MFSR、DESR、VSRNet。

最后总结：一是这个工作是端到端的，有很好的适应性，二是提出了 SPMC layer，三是我们的方法质量很高，速度上有较大提升。

下面是对我们腾讯优图 X-Lab 的简介。

这是我们的团队照片，目前我们团队大概有 30 多个人。

最后我还想在这里来个简单的广告，目前我们团队处于飞速发展中，如果大家对我们团队有兴趣，欢迎加我微信。

视频：

推荐阅读

————— 给爱学习的你的福利 —————

上海交通大学博士讲师团队

从算法到实战应用，涵盖CV领域主要知识点

手把手项目演示

全程提供代码

深度剖析CV研究体系

轻松实战深度学习应用领域！

详细了解点击文末阅读原文

▼▼▼

————————————————————

登录查看更多

相关内容

腾讯优图

关注 1

腾讯优图

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

【DeepMind硬核课】深度学习计算机视觉前沿进展，附124页ppt

专知会员服务

168+阅读 · 2020年6月30日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

30篇「CVPR2020」高赞论文抢先看！看计算机视觉2020在研究什么？

专知会员服务

50+阅读 · 2020年2月28日

基于深度学习的行人重识别研究进展，自动化学报

专知会员服务

39+阅读 · 2019年12月5日

【ICCV 2019 Tutorial】From Paired to Unpaired Visual Domain Translation and Beyond ，苏黎世联邦理工学院 Radu Timofte讲师

专知会员服务

8+阅读 · 2019年10月30日

文档分析与识别技术回顾与反思，中国科学院自动化研究所刘成林研究员，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

专知会员服务

38+阅读 · 2019年10月24日

【谷歌出品】272页PPT讲述Tensorflow2.0在图形学方面的应用，SIGGRAPH2019

专知会员服务

19+阅读 · 2019年10月1日

CVPR 2019 论文大盘点-超分辨率篇

极市平台

77+阅读 · 2019年6月23日

CVPR 2019 Oral 论文解读 | 利用事件相机将模糊视频还原成高速清晰视频

AI研习社

8+阅读 · 2019年5月28日

学界 | 万字长文详解腾讯优图 CVPR 2019 入选论文

AI研习社

4+阅读 · 2019年3月8日

腾讯优图25篇CVPR解读：视觉对抗学习、视频深度理解等

新智元

4+阅读 · 2019年3月8日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

已删除

将门创投

4+阅读 · 2018年11月6日

CVPR 2018：腾讯图像去模糊、自动人像操纵最新研究

新智元

7+阅读 · 2018年5月29日

【图文实录】旷视首席科学家孙剑：计算机视觉的变革和挑战

机器学习研究会

3+阅读 · 2018年3月16日

业界 | 前微软亚洲研究院资深研究员梅涛博士加盟京东，担纲计算机视觉与多媒体研发

机器之心

5+阅读 · 2018年1月25日

CVPR 2017 | 商汤科技及香港中大-商汤科技联合实验室精选论文解读（二）

商汤科技

3+阅读 · 2017年7月25日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Iterative Residual CNNs for Burst Photography Applications

Arxiv

3+阅读 · 2018年11月29日

Attention-Aware Compositional Network for Person Re-identification

Arxiv

8+阅读 · 2018年5月16日

Weighted Bilinear Coding over Salient Body Parts for Person Re-identification

Arxiv

4+阅读 · 2018年4月30日

Multi-Level Factorisation Net for Person Re-Identification

Arxiv

4+阅读 · 2018年4月17日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

Efficient and Deep Person Re-Identification using Multi-Level Similarity

Arxiv

4+阅读 · 2018年4月2日

On the loss of Fisher information in some multi-object tracking observation models

Arxiv

3+阅读 · 2018年3月26日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

Practical sketching algorithms for low-rank matrix approximation

Arxiv

4+阅读 · 2018年1月2日

VIP会员