会员服务 ·

合成逼真图像，试试港中大&英特尔的半参数方法 | CVPR 2018 oral

2018 年 5 月 6 日 量子位 关注前沿科技

Root 编译整理
量子位出品 | 公众号 QbitAI

你可能不相信，上面这张图是合成的。

CG要达到这样真实的效果，目前主流的做法是先手动建模，把物体的表面结构搭建出来，然后再贴图、定材质、上灯光，最后渲染。

深度神经网络的出现，给CG带来一道曙光。

根据大致的草图框架（也称语义布局法），深度神经网络现在可以直接合成真实效果的图片。

不过，主流图像合成所用的模型大多是参数模型（parametric models）。这种模型，所有和逼真外观有关的数据，都会体现在深度神经网络的权重里。

不过，这与人类画画的方式不太一样。

我们在画画的时候，不是完全凭记忆复刻现实的。而是把外界真实的物体当作一个参考，然后细节上微调，进行再创作。

参数模型的优点是具有高度的表现力（highly expressive），可进行端对端训练。而非参数模型（nonparametric models）的优点，是可以在测试时提取大型的真实图片数据集里的素材。

为了集结这两种模型的优势，香港中文大学联合英特尔视觉计算实验室共同研究出了一种半参数模型，简称为SIMS，相关工作论文Semi-parametric Image Synthesis已被CVPR 2018接收为口头汇报。

△ 图片合成效果演示

他们工作的思路是：

1）先用大型真实图像数据集先训练非参数模型，相当于获得了一个合成素材库。

2）然后基于语义布局（Semantic layout），把这些素材填充进去，就像一张图被分割成好几个版块之后，再往上打补丁充实细节。

△ “语义布局”处理，相当于是个草图，指导合成用的

接缝的地方，深度网络会自行融合，并计算好版块之间物体的空间关系，进一步加强视觉的真实效果。

实验结果非常不错。

△ SIMS合成的效果

在Cityspaces、NYU、ADE20K等数据集上训练得到的效果，真实程度比去年8月量子位报道过的合成方法提高了不少。

对比上下图，你会发现，SIMS合成的图在清晰度上，光线折射关系上，都有出色的表现。物体融合的时候也不会发生扭曲。

△ 去年方法的效果

语义布局合成法，也正是本论文的两位作者——英特尔实验室视觉组主管Vladlen Koltun与的陈启峰提出的。

换句话说，这篇论文是在陈启峰和Koltun之前工作的基础上，作出了进一步的优化。

图片的合成流水线

首先，给一个草图。告诉模型，你想合成的图片布局是什么样的。就像下图最左上的小图那样。

另外，也要砌一个素材库。

巧妇难为无米之炊。模型并不能自己瞎开脑洞编造合成用的素材。得“吃”大量的真实图片之后建一个记忆库(External Memory Bank)。

这两步完成后，模型就根据草图切割的形状，提取出记忆库里能对上号的素材，比如说路边的建筑啊，停放好的车辆，以及树啥的。如（b）图所示。

合适的素材拎出来，Transformation网络负责微调，使得各版块的素材之间二维融合的效果比较好，不至于看起来很突兀。

最后，Ordering网络计算出这些板块的空间位置，给予适当的光影关系，合成一幅逼真的图片。

OMT

这篇论文的一作和导师都很有来头。

先来介绍一下一作，齐晓娟。

齐晓娟，香港中文大学计算机科学与工程系4年级博士生，本科就读于上海交大电子科学与技术专业。

目前研究方向主要是计算机视觉，深度网络和医学影像分析。目前攻克的课题集中在语义分割，3D场景理解和图像合成上。

据GitHub上的资料介绍，她已有三篇文章被CVPR2018收录。

除了半参数图像合成这篇，另外两篇分别是GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation，Referring Image Segmentation via Recurrent Refinement Networks。

齐晓娟曾在英特尔视觉计算实验室(Intel Visual Computing Lab)实习过半年，师从Vladlen Koltun，研究课题就是图像合成。Vladlen Koltun也是本篇论文的作者之一。

导师贾佳亚博士，不仅是香港中文大学计算机科学与工程系的终生教授，还是腾讯优图实验室的杰出科学家。

贾佳亚教授于去年5月加入腾讯优图实验室。随后组建团队，打造出了好几个产品应用。那个刷爆了票圈的军装照，还有“一键卸妆”应用，都出自他们团队。

在贾佳亚教授的带领下，腾讯优图实验室在ICCV 2017顶会上取得了十分漂亮的成绩单，共有12篇论文入围。今年的CVPR，贾佳亚教授团队一共中了6篇论文。

二作陈启峰的经历也十分传奇。

曾放弃清华保送的资格。本科就读于香港科技大学，并获取2011年的ACM国际大学生程序设计竞赛金牌。本科毕业后，一举拿下九所名校全额奖学金offer，最后他选择了斯坦福。现在英特尔实验室任研究人员。

最后，附code：
https://github.com/xjqicuhk/SIMS

以及论文：
http://vladlen.info/papers/SIMS.pdf

— 完 —

活动报名

加入社群

量子位AI社群16群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot6入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot6，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

[CVPR 2020-港中文-MIT] 神经架构搜索鲁棒性

专知会员服务

26+阅读 · 2020年4月7日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

27+阅读 · 2020年3月24日

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

专知会员服务

10+阅读 · 2020年3月20日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

图像分区域合成，这个新方法实现了人脸的「精准整容」

机器之心

6+阅读 · 2019年12月16日

逼真3D人脸动画等，德国马普所三篇CVPR 2019论文推荐

机器之心

7+阅读 · 2019年6月23日

头像神器！照片一键秒转简笔画，清华刘永进等CVPR 19 Oral研究 | 在线可玩

量子位

18+阅读 · 2019年6月16日

学界 | 人脸照片秒变艺术肖像画：清华大学提出APDrawingGAN CVPR 2019 oral paper

AI科技评论

4+阅读 · 2019年6月15日

人脸照片秒变艺术肖像画：清华大学提出APDrawingGAN CVPR 2019 oral paper

数据派THU

3+阅读 · 2019年6月11日

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

量子位

9+阅读 · 2019年6月10日

CVPR2019 | 港中文&腾讯优图等提出：暗光下的图像增强

极市平台

15+阅读 · 2019年6月5日

CVPR 2019 Oral | 华科开源效果超群的人体姿态迁移算法

极市平台

88+阅读 · 2019年4月26日

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

新智元

14+阅读 · 2019年4月17日

本周精选共读论文《姿态估计&图像生成》五篇

人工智能前沿讲习班

7+阅读 · 2019年3月25日

Object Hallucination in Image Captioning

Arxiv

3+阅读 · 2019年3月29日

Describing like humans: on diversity in image captioning

Arxiv

3+阅读 · 2019年3月28日

Embedding Uncertain Knowledge Graphs

Arxiv

12+阅读 · 2019年2月26日

Unsupervised Image Captioning

Arxiv

7+阅读 · 2018年11月27日

Semantically Enhanced Models for Commonsense Knowledge Acquisition

Arxiv

3+阅读 · 2018年9月27日

Test-time augmentation with uncertainty estimation for deep learning-based medical image segmentation

Arxiv

4+阅读 · 2018年7月19日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

Semi-parametric Image Synthesis

Arxiv

4+阅读 · 2018年4月29日

Fake Colorized Image Detection

Arxiv

6+阅读 · 2018年1月14日

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Arxiv

3+阅读 · 2017年11月24日

VIP会员

合成逼真图像，试试港中大&英特尔的半参数方法 | CVPR 2018 oral

Root 编译整理量子位 出品 | 公众号 QbitAI

△ 图片合成效果演示

△ “语义布局”处理，相当于是个草图，指导合成用的

△ SIMS合成的效果

△ 去年方法的效果

图片的合成流水线

OMT

相关内容

知识荟萃

更多

Root 编译整理
量子位出品 | 公众号 QbitAI