最新3D GAN可生成三维几何数据了！模型速度提升7倍，英伟达&斯坦福出品

会员服务 ·

显隐混合+双重鉴别

事实上，只用一张单视角2D照片生成3D效果，此前已经有许多模型框架可以实现。

但是它们要么需要计算量非常大，要么给出的近似值与真正的3D效果不一致。

这就导致生成的效果会出现画质低、变形等问题。

为了解决以上的问题，研究人员提出了一种显隐混合神经网络架构 （hybrid explicit-implicit network architecture）。

这种方法可以绕过计算上的限制，还能不过分依赖对图像的上采样。

从对比中可以看出，纯隐式神经网络（如NeRF）使用带有位置编码（PE）的完全连接层（FC）来表示场景，会导致确定位置的速度很慢。

纯显式神经网络或混合了小型隐式解码器的框架，虽然速度更快，但是却不能保证高分辨率的输出效果。

而英伟达和斯坦福大学提出的这个新方法EG3D，就将显式和隐式的表示优点结合在了一起。

它主要包括一个以StyleGAN2为基础的特征生成器和映射网络，一个轻量级的特征解码器，一个神经渲染模块、一个超分辨率模块和一个可以双重识别位置的StyleGAN2鉴别器。

其中，神经网络的主干为显式表示，它能够输出3D坐标；解码器部分则为隐式表示。

与典型的多层感知机制相比，该方法在速度上可快出7倍，而占用的内存却不到其十六分之一。

与此同时，该方法还继承了StyleGAN2的特性，比如效果良好的隐空间（latent space）。

比如，在数据集FFHQ中插值后，EG3D的表现非常nice：

该方法使用中等分辨率（128 x 128）进行渲染，再用2D图像空间卷积来提高最终输出的分辨率和图像质量。

这种双重鉴别，可以确保最终输出图像和渲染输出的一致性，从而避免在不同视图下由于卷积层不一致而产生的问题。

△两图中左半边为最终输出效果，右半边为渲染输出

而没有使用双重鉴别的方法，在嘴角这种细节上就会出现一些扭曲。

△左图未使用双重鉴别；右图为EG3D方法效果

数据上，与此前方法对比，EG3D方法在256分辨率、512分辨率下的距离得分（FID）、识别一致性（ID）、深度准确性和姿态准确性上，表现都更好。

团队介绍

此项研究由英伟达和斯坦福大学共同完成。

共同一作共有4位，分别是：Eric R. Chan、Connor Z. Lin、Matthew A. Chan、Koki Nagano。

其中，Eric R. Chan是斯坦福大学的一位博士研究生，此前曾参与过一些2D图像变3D的方法，比如pi-GAN。

Connor Z. Lin是斯坦福大学的一位正在读博二的研究生，本科和硕士均就读于卡内基梅隆大学，研究方向为计算机图形学、深度学习等。

Matthew A. Chan则是一位研究助理，以上三人均来自斯坦福大学计算机成像实验室（Computational Imaging Lab）。

Koki Nagano目前就职于英伟达，担任高级研究员，研究方向为计算机图形学，本科毕业于东京大学。

论文地址：
https://arxiv.org/abs/2112.07945

参考链接：
https://matthew-a-chan.github.io/EG3D/

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

几何数据

关注 1

【TNNLS2022】SGCPNet: 面向实时语义分割的空间细节引导上下文传播网络

专知会员服务

24+阅读 · 2022年4月8日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成

专知会员服务

17+阅读 · 2021年10月23日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

一张照片就能生成3D模型，GAN和自动编码器碰撞出奇迹，苏黎世联邦理工学院出品

量子位

0+阅读 · 2022年3月2日

撸猫何必要真猫，一张靓照也可以！斯坦福英伟达3D版神笔马良连屠两榜，3D合成7倍速

新智元

1+阅读 · 2021年12月25日

用GAN也可以P图，效果还不输PS | 英伟达出品

量子位

0+阅读 · 2021年11月12日

虚拟在左，真实在右：德国学者用AI合成一亿像素逼真3D图像，可任意旋转

THU数据派

0+阅读 · 2021年10月19日

深度图像先验：无需学习即可生成新图像

论智

45+阅读 · 2017年12月4日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于单张低精度深度图的实时精确三维曲面重建

国家自然科学基金

0+阅读 · 2012年12月31日

结合2D图像和3D点云数据的城市建筑物重建关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于表面分割的大型三维网格模型多分辨率表示并行构建与绘制

国家自然科学基金

0+阅读 · 2012年12月31日

宽幅全色与多光谱遥感图像的高保真融合技术

国家自然科学基金

0+阅读 · 2012年12月31日

3D Parametric Wireframe Extraction Based on Distance Fields

Arxiv

0+阅读 · 2022年4月20日

Human-Object Interaction Detection via Disentangled Transformer

Arxiv

0+阅读 · 2022年4月20日

Photorealistic Monocular 3D Reconstruction of Humans Wearing Clothing

Arxiv

1+阅读 · 2022年4月19日

Shape-Aware Monocular 3D Object Detection

Arxiv

0+阅读 · 2022年4月19日

Minimal Absent Words on Run-Length Encoded Strings

Arxiv

0+阅读 · 2022年4月14日

VIP会员