谷歌给NeRF动了个小手术，2D变3D，照片视角随心换

会员服务 ·

谷歌给NeRF动了个小手术，2D变3D，照片视角随心换

2020 年 8 月 7 日 新智元

新智元报道

来源：arxiv等

编辑：白峰

【新智元导读】近日，Google研究人员又开发了一个3D场景转换的新模型，该模型基于之前大火的神经辐射场，可以在变化的场景和遮挡下重构出逼真的3D动态场景。

最近，来自谷歌Research和谷歌Brain的一组研究人员开发了一个深度学习模型，仅使用非结构化的野外图片集合就能合成复杂的户外3D场景图。

3D场景重构神器：神经辐射场

对于计算机视觉模型来说，使用多个摄像机角度和光照条件合成一个场景的三维视图是非常困难的，也是 AR 和 VR 应用的重要前提，为了摆脱传统体积渲染的束缚，神经辐射场（NeRF）应运而生。

神经辐射场使用多层感知器的权重隐式建模场景的体积密度和颜色。

关于神经辐射场的具体信息，下面这个视频做了很好的诠释，来看下它有多「神经」吧！

我们先来回顾一下NeRF，神经网络直接从空间位置和视角(5维输入)映射到颜色和不透明度(4维输出) ，来充当「体积」。

NeRF算法使用完全连接的(非卷积)深度网络表示场景，输入为单个连续的5D坐标(空间位置(x，y，z)和查看方向(θ，φ))，输出是在该空间位置的体积密度和与视图相关的亮度信息。

虽然NeRF可以很好地处理受控状态下拍摄的静态图像，但无法在变化的环境中建模，例如光影的变化、出现临时遮挡物等，谷歌研究人员之所以把新模型命名为野外的NeRF(NeRF-W)，意思就是不受环境约束的。

该模型能够在不影响场景三维几何形状的情况下，捕捉到室外的光照变化，并重构场景。

NeRF-W可以通过一组稀疏的输入视图集来优化基础的连续体积场景功能，从而获得用于合成复杂场景的新视图。

也就是说给它一组2D图片，它就能自动学习到各种光影、估计各部分的体积密度，从而重构完整的3D图像。

对NeRF动个小手术，让它适应变化的场景

在户外摄影中，不同的时间和气候条件会影响场景中对象的照明，所以NeRF-W扩展了NeRF，以允许图像依赖外观和照明的变化，从而可以显式地建模图像之间的光照差异。

NeRF-W架构

我们来看NeRF-W的整体架构。给定3D位置r(t)，观察方向d，外观嵌入li(a)和瞬态嵌入li(τ)，NeRF-W会产生差分不透明度σ(t)，σi(τ)(t)，颜色ci(t)，c(τ)i(t)和不确定性βi(t)。

通过这种低维嵌入空间来控制 NeRF 的辐射场，不仅赋予了 NeRF-W 模型「大师级」的灯光能力，还能够从新的角度「重新点亮」一个场景。

需要注意的是，静态不透明度σ(t)是在外观嵌入li(a)之前生成的，以确保在所有图像之间共享静态几何体。

现实中的场景对象很少是孤立的，常常会碰到干扰，比如突然出现的行人。通过NeRF-W的架构图，可以看到它允许对瞬态对象进行联合估计，并将它们从3D世界的静态表示中解耦出来。

对于瞬态目标，NeRF-W引入了一个含有不确定性场的二次体积辐射场。前者显式捕获瞬态物体，后者捕获穿过部分三维空间的像素颜色的不确定性。

有了NeRF-W的这些估计信息，模型会搜索相机光线的5D坐标来合成视图，并使用经典的体积渲染技术将输出的颜色和密度信息投影到图像中。

一些用于训练的图像

研究人员使用了 TensorFlow 2和 Keras 进行建模，在8个 NVIDIA V100 gpu 训练了300,000步才达到现在的效果。

所以，如果你想自己训练，不光需要一个公开的Lego数据集，还要8个「烧钱机器」V100。不过作者稍后会放出训练好的模型，可以直接拿来重构自己的风景画了！

参考链接：

https://arxiv.org/pdf/2008.02268.pdf

登录查看更多

相关内容

NeRF

关注 0

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

【FAIR-CVPR2020】PIFuHD:多级像素对齐隐式功能，实现高分辨率三维人体数字化

专知会员服务

29+阅读 · 2020年4月5日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++

PaperWeekly

4+阅读 · 2019年11月8日

业界 | 单个运动摄像头估计运动物体深度，谷歌挑战新难题

AI科技评论

3+阅读 · 2019年6月4日

照片上的人出来了！云从3D人体重建登顶三项榜单，一张照片就能生成3D形象

量子位

4+阅读 · 2019年3月20日

深度学习新应用：在PyTorch中用单个2D图像创建3D模型

机器之心

4+阅读 · 2019年1月11日

谷歌新研究用深度学习合成运动模糊效果，手抖也能拍出摄影师级照片

新智元

7+阅读 · 2018年12月28日

Progressive Pose Attention Transfer for Person Image Generation

Arxiv

5+阅读 · 2019年4月9日

Generative Graph Convolutional Network for Growing Graphs

Arxiv

3+阅读 · 2019年3月6日

Learning Implicit Fields for Generative Shape Modeling

Arxiv

11+阅读 · 2018年12月6日

Learning to Generate and Reconstruct 3D Meshes with only 2D Supervision

Arxiv

3+阅读 · 2018年11月15日

3D Reconstruction in Canonical Co-ordinate Space from Arbitrarily Oriented 2D Images

Arxiv

4+阅读 · 2018年1月23日

VIP会员