pix2pix 3D版：几笔线条生成超炫猫咪霹雳舞！ - 专知

会员服务 ·

0

pix2pix 3D版：几笔线条生成超炫猫咪霹雳舞！

2018 年 9 月 19 日 新智元

新智元AI WORLD 2018世界人工智能峰会

明天开始！

【重要通知】2018 新智元AI WORLD 2018世界人工智能峰会 【倒计时 1 天，点击 “阅读原文” 获取参会指南】2018 年中国人工智能最强引力波袭来！现场一律凭活动行二维码入场，大会于 9 月 20 日 8:00 正式开始签到，8:50 会议开始，现场座位紧张请提前签到换领大会嘉宾胸卡。大会将在爱奇艺、新浪和腾讯科技上同步直播，欢迎关注。

爱奇艺直播地址：

https://live.iqiyi.com/s/19rqw411mv.html

活动行购票二维码：

新智元报道

来源：github、Twitter、arXiv

编译：肖琴、三石

【新智元导读】图像翻译已然不是一件新鲜的事情了，但最近博主Keijiro Takahashi不仅实时的完成了这个图像生成任务，而且还将它“贴”到了3D模型上，打造了一只生动可爱的“专属小猫咪”！

看！这货竟然比神笔马良还要厉害！

随着GAN、pix2pix等技术的提出，图像翻译已然不是一件稀奇的事情。但实时且3D的图像翻译，却算的上是喜闻乐见了。

作者Keijiro Takahashi历经半个月的时间，终于“翻译”出了这只活灵活现的3D小喵咪：

专属猫咪，你值得拥有！

其实，搞出来个这样的喵咪并不难。

首先，用Sketch Pad画一个猫！

类似于非常出名的edges2cats，Sketch Pad也是一种演示方法，但它还是实时的。

其次，需要一些系统的要求：

Unity 2018.1
计算着色器功能（DX11，Metal，Vulkan等）

尽管它是以平台无关的方式实现的，但它的许多部分都针对NVIDIA GPU体系结构进行了优化。

为了完美地运行Sketch Pad，作者建议使用GeForce GTX 1070或更高版本的Windows系统。

那么，如何使用训练过的模型呢？

这个存储库不包含任何用来节省带宽和存储配额且经过训练的模型。

要在Unity Editor上运行示例项目，需下载预先训练好的edges2cats模型，并将其复制到Assets/StreamingAssets中。

该实现只支持在Christopher Hesse交互演示中使用的.pict权重数据格式。你可以选择一个预先训练好的模型或者使用pix2pix-tensorflow来训练你自己的模型。

经典Pix2pix

Pix2pix 是一个不同图像效果的转换工具，基于GAN实现。Pix2pix由UC Berkeley的Phillip Isola等人提出，论文最早在2016年11月在arxiv上公开，并被CVPR 2017录取。虽然是比较老的论文，但作为一篇很经典的论文，非常值得一读，因此我们也在这里介绍一下Pix2pix的方法。

论文研究了条件对抗网络作为一种图像到图像转换问题的通用解决方案。这些网络不仅学习从输入图像到输出图像的映射，还学习了用于训练该映射的损失函数。这使得对传统上需要非常不同的损失公式的问题应用相同的通用方法成为可能。

研究人员证明了这种方法在从标签地图合成照片，从边缘地图重建对象，以及给黑白图像上色等任务中都是有效的。这项工作表明我们可以在不需要手工设计损失函数的情况下获得合理的结果。

图1：有条件的对抗性网络是一种通用的解决方案，似乎可以很好地解决各种各样的问题。这里我们展示几种方法的结果。在每种情况下都使用相同的架构和目标，只是简单地在不同的数据上训练。

在一些任务中，可以相当快地在小数据集中获得不错的结果。例如，为了学习生成外墙（如上图所示），我们仅花了大约2小时训练了400张图像（用一个Pascal Titan X GPU）。然而，对于更困难的问题，在更大的数据集上进行训练可能是很重要的，而且需要花费很多小时甚至数天的时间。

既然是基于GAN的，那么Pix2pix也离不开生成器和判别器。

GAN是生成模型，它学习从随机噪声向量z映射到输出图像y，即：G : z → y。

相比之下，条件GAN是从观察到的图像x和随机噪声向量z，学习它们与y的映射，即：G : {x, z} → y。

生成器G是训练来产生输出的，目的是让这些输出不被对抗训练的鉴别器D将其与“真实”图像区分开来；同时，鉴别器D被训练来尽可能地检测到生成器的“假”输出。训练过程如下图所示：

训练一个从map edges到photo的条件GAN

网络架构

这里采用了深度卷积生成对抗网络DCGAN中的生成器和鉴别器的结构进行调整。生成器和鉴别器都采用了convolution-BatchNorm-ReLu的模块。

生成器架构的两种选择。“U-Net”是编码器 - 解码器，在编码器和解码器堆栈中的镜像层之间有跳过连接（skip connection）。

有关Pix2pix结构的更多细节，请阅读原论文：

https://arxiv.org/pdf/1611.07004.pdf

Pix2pix最著名的应用是“画猫”，edges2cats便是基于pix2pix-tensorflow的一个实现，请看效果：

而今天我们介绍的Pix2Pix for Unity更是脑洞大开，在3D模型之上“画猫”，让生成的猫咪动了起来。程序员撸猫还真是方便呢！

参考链接：

https://github.com/keijiro/Pix2Pix

https://twitter.com/_kzr

https://arxiv.org/pdf/1611.07004.pdf

新智元AI WORLD 2018世界人工智能峰会

倒计时 1 天

门票已开售！

新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会，邀请机器学习教父、CMU教授 Tom Mitchell，迈克思·泰格马克，周志华，陶大程，陈怡然等AI领袖一起关注机器智能与人类命运。

大会官网：

http://www.aiworld2018.com/

新浪直播地址：http://video.sina.com.cn/l/p/1724373.html

腾讯科技客户端：http://view.inews.qq.com/a/TEC2018091801191900

PC直播页:http://v.qq.com/live/p/topic/57401/preview.html

PC预告页：http://v.qq.com/live/p/topic/57401/preview.html

活动行购票链接：
http://www.huodongxing.com/event/6449053775000
活动行购票二维码：

登录查看更多

4

相关内容

图像翻译

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

自回归模型:PixelCNN

自回归模型:PixelCNN

专知会员服务

28+阅读 · 2020年3月21日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

专知会员服务

55+阅读 · 2019年11月20日

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

量子位

9+阅读 · 2019年6月10日

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

新智元

14+阅读 · 2019年4月17日

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

GAN生成式对抗网络

7+阅读 · 2018年12月7日

【Ian Goodfellow盛赞】一个GAN生成ImageNet全部1000类物体

【Ian Goodfellow盛赞】一个GAN生成ImageNet全部1000类物体

新智元

3+阅读 · 2017年11月21日

Ian Goodfellow推荐：GAN生成模特照片媲美真人

Ian Goodfellow推荐：GAN生成模特照片媲美真人

新智元

8+阅读 · 2017年10月16日

3D Deep Learning on Medical Images: A Review

3D Deep Learning on Medical Images: A Review

Arxiv

13+阅读 · 2020年4月1日

Deformable Style Transfer

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

Object Detection in 20 Years: A Survey

Object Detection in 20 Years: A Survey

Arxiv

48+阅读 · 2019年5月13日

To Create What You Tell: Generating Videos from Captions

Arxiv

3+阅读 · 2018年4月23日

VIP会员

相关主题

相关VIP内容

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

自回归模型:PixelCNN

自回归模型:PixelCNN

专知会员服务

28+阅读 · 2020年3月21日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

专知会员服务

55+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

量子位

9+阅读 · 2019年6月10日

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

草图秒变风景照，英伟达神笔马良GaoGAN终于开源了

新智元

14+阅读 · 2019年4月17日

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

GAN生成式对抗网络

7+阅读 · 2018年12月7日

【Ian Goodfellow盛赞】一个GAN生成ImageNet全部1000类物体

【Ian Goodfellow盛赞】一个GAN生成ImageNet全部1000类物体

新智元

3+阅读 · 2017年11月21日

Ian Goodfellow推荐：GAN生成模特照片媲美真人

Ian Goodfellow推荐：GAN生成模特照片媲美真人

新智元

8+阅读 · 2017年10月16日

相关论文

3D Deep Learning on Medical Images: A Review

3D Deep Learning on Medical Images: A Review

Arxiv

13+阅读 · 2020年4月1日

Deformable Style Transfer

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

Object Detection in 20 Years: A Survey

Object Detection in 20 Years: A Survey

Arxiv

48+阅读 · 2019年5月13日

To Create What You Tell: Generating Videos from Captions

Arxiv

3+阅读 · 2018年4月23日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员