谷歌逆天「夜视」拍照突然火了！完美降噪还能合成3D视角｜CVPR 2022

会员服务 ·

谷歌逆天「夜视」拍照突然火了！完美降噪还能合成3D视角｜CVPR 2022

2022 年 8 月 24 日 新智元

新智元报道

编辑：好困 Aeneas

【新智元导读】谷歌一年前的论文突然火了！这个名叫RawNeRF的技术，不仅完美降噪，还能改变视角，调整焦点和曝光等等。难道，我们距离超强的夜景拍照相机不远了？

最近，网上一段来自谷歌的AI夜景拍摄视频被刷爆了！

视频中的这个技术叫RawNeRF，顾名思义就是NeRF的一个全新变体。

NeRF是一种全连接神经网络，使用2D图像的信息作为训练数据，还原出3D场景。

RawNeRF比起之前的NeRF，有了多处改进。不仅能完美降噪，还能改变相机视角，调整焦点、曝光和色调映射。

谷歌的这篇论文于2021年11月发表，并被CVPR 2022收录。

项目地址：https://bmild.github.io/rawnerf/

黑夜中的RawNeRF

在此之前，NeRF是使用色调映射的低动态范围LDR图像作为输入。

而谷歌的RawNeRF改为直接在线性原始图像上进行训练，可以保留场景的完整动态范围。

在合成视图领域，处理黑暗的照片一直是一个难题。

因为在这种情况下，图像中的细节极少。而且这些图像让我们很难把新视图拼接到一起。

还好，我们有一个新的方案——使用原始传感器（RAW sensor data）的数据。

就是像这样的一张图，这样，我们就有了更多的细节。

不过，仍然存在一个问题：噪点也多了。

所以我们必须做个选择：是更少的细节和更少的噪点，还是选择更多的细节和更多的噪点。

好消息是：我们可以使用图像降噪技术。

可以看到，降噪之后的图像效果不错，但要合成视图，这种质量还是不够。

不过图像降噪技术给我们提供了一个思路：既然可以给单个图像去噪，那也可以给一组图像去噪。

让我们来看看RawNeRF的效果。

而且，它还有更多令人惊喜的功能：对基础数据进行色调映射，从深色图像中提取更多细节。

比如改变图像的焦点，营造出很棒的景深效果。

更厉害的是，这个还是实时的。

此外，图像的曝光也会随着焦点的变化而产生相应的变化！

接下来，就让我们看看RawNeRF的五个经典的应用场景吧。

五大经典场景

1. 图像清晰度

看这张图像，你能看到路牌上的信息吗？

可以看到，经过RawNeRF处理后，路牌上的信息就清晰多了。

在下面这个动图里，我们可以清晰地看到原始的NeRF技术和RawNeRF在图像合成上的区别。

其实，所谓的NeRF也并不是多古老的技术，时间才刚刚过了2年而已……

看得出来，RawNeRF在高光的处理上，表现得还是非常出色的，我们甚至能看到右下角车牌周围的高光变化。

2. 镜面高光

镜面高光属于非常难捕捉的对象，因为在移动相机时，它们会发生很大的变化，而且照片之间的相对距离也比较远。这些因素对于学习算法来说，都是巨大的挑战。

在下面这张图中可以看到，RawNeRF所生成的镜面高光可以说是相当还原了。

3. 薄的结构

即使在光线充足的情景中，以前的技术对于栅栏的显示效果也并不好。

而RawNeRF即使处理有一堆栅栏的夜间照片，也妥妥hold得住。

即使在栅栏与车牌重合的地方，效果依然很好。

4. 镜面反光

路面上的反光，是一种更有挑战性的镜面高光。可以看到，RawNeRF也处理得非常自然，非常真实。

5. 改变焦点，调整曝光

在这个场景中，让我们试试改变视角，不断变换焦点，同时调整曝光。

在以前，要完成这些工作，我们需要从25到200张照片的集合。

而现在，我们只需要几秒钟，就可以完成拍摄了。

当然，RawNeRF现在并不完美，我们可以看到，左边的RawNeRF图像和右边的真实照片，还是有一些差异。

不过，从一组充满噪点的原始图像达到现在这样的效果，RAWnerf已经取得相当大的进步了。要知道，两年前的技术还完全做不到这样。

RAW的好处

简单回顾一下，NeRF训练管线所接收的是经过相机处理的LDR图像，之后的场景重建和视图渲染，基于的都是LDR色彩空间。因此，NeRF的输出实际上已经是经过了后期处理的，想要大幅修改和编辑是不可能了。

相比而言，RawNeRF是直接在线性原始HDR输入数据上训练的。由此产生的渲染结果可以像任何原始照片一样进行编辑，如改变焦点和曝光等等。

由此带来的好处主要有两点：HDR视图合成和降噪处理。

在亮度变化极大的场景中，固定的快门速度不足以捕捉到全部动态范围。RawNeRF模型则可以同时对短曝光和长曝光进行优化处理，从而恢复完整的动态范围。

例如（b）中的这种大光比场景，就需要更复杂的局部色调映射算法（例如HDR+后期处理），才能同时保留暗部的细节和室外的高光。

此外，RawNeRF还可以使用线性颜色渲染具有正确饱和的「虚化」亮点的合成失焦效果。

在图像噪点的处理上，作者进一步地将RawNeRF在完全未经处理的HDR线性原始图像上进行了训练，使其变成了一个能处理几十甚至几百张输入图像的「降噪器」。

这种鲁棒性也就意味着，RawNeRF可以出色地完成在黑暗中重建场景的任务。

例如在（a）这个只有一根蜡烛照明的夜景中，RawNeRF可以从嘈杂的原始数据中提取出本来会被后期处理破坏的细节（b，c）。

作者介绍

论文的第一作者Ben Mildenhall是谷歌研究院的一名研究科学家，从事计算机视觉和图形方面的问题。

他在2015年于斯坦福大学取得计算机科学和数学学士学位，并在2020年于加州大学伯克利分校取得计算机科学博士学位。

刚刚结束的CVPR 2022，可以说是Ben的高光时刻了。

7篇录用论文中有5篇拿下Oral，并且还有一篇获得了最佳学生论文的荣誉提名。

网友评论

视频一出，立马惊艳了众网友。大家一起脑洞大开。

看这技术进步的速度，要不了多久，夜间拍照再也不用愁了~

参考资料：

https://bmild.github.io/rawnerf/

登录查看更多

相关内容

NeRF

关注 7

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

30+阅读 · 2022年8月24日

【MM 2021】基于单张图像的多风格说话人合成，Imitating Arbitrary Talking Style for Realistic Audio-Driven Talking Face Synthesis

专知会员服务

6+阅读 · 2022年3月22日

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

专知会员服务

35+阅读 · 2021年5月26日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

用A4纸当屏幕「播放」宫崎骏动画，随意抖动都毫无破绽

量子位

0+阅读 · 2022年10月8日

CVPR 2022 | 惊呆了！只用一张图+相机走位，AI就能脑补周围环境！

CVer

1+阅读 · 2022年3月22日

3张图片生成一个手办3D模型！南加州大学华人博士提出新模型NeROIC，更真实！

新智元

1+阅读 · 2022年2月24日

手机拍照全靠猜？为什么你的手机总拍不出「真实」的照片

少数派

0+阅读 · 2022年2月23日

买不起手办就用AI渲染一个！用网上随便搜的图就能合成，已有网友开炒游戏NFT

量子位

0+阅读 · 2022年2月20日

冰墩墩设计师都在玩的AI创作，这次大模型出圈了！

量子位

2+阅读 · 2022年2月15日

谷歌最新抠图算法：让背景虚化细节到头发丝！有单反的感觉了...

CVer

0+阅读 · 2022年2月7日

谷歌又买算法送手机了，最新方法让背景虚化细节到头发丝，真有单反的感觉了

量子位

0+阅读 · 2022年2月7日

这只日本AI爆火：草图实时变身二次元老婆，还有512种参数可调

量子位

0+阅读 · 2022年1月9日

学界 | 谷歌研究院发布 NIMA：能评价图像有多美，还能让图像变得更美

AI科技评论

11+阅读 · 2017年12月19日

多种尺寸的钴纳米团簇的可控合成、结构与性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多酸在二氧化钛纳米晶表面的自组装

国家自然科学基金

0+阅读 · 2014年12月31日

面向3D-TOF相机的高质量深度图像重建方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向大视场高清光场成像的超分辨率三维重建方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

功能有序多孔膜的构筑与压电传感检测

国家自然科学基金

0+阅读 · 2012年12月31日

对象级视频修复与合成篡改检测关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

新型稀土纳米发光材料的可控合成与表面功能化研究

国家自然科学基金

0+阅读 · 2012年12月31日

高分辨真彩色动态全息三维显示关键技术的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多通道体全息光学相关的遥感图像多维线/角位移测量技术

国家自然科学基金

0+阅读 · 2011年12月31日

Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths

Arxiv

0+阅读 · 2022年11月23日

A note on graphs with purely imaginary per-spectrum

Arxiv

0+阅读 · 2022年11月23日

Can denoising diffusion probabilistic models generate realistic astrophysical fields?

Arxiv

0+阅读 · 2022年11月22日

Semantic Image Synthesis via Diffusion Models

Arxiv

0+阅读 · 2022年11月22日

FLNeRF: 3D Facial Landmarks Estimation in Neural Radiance Fields

Arxiv

0+阅读 · 2022年11月22日

SinFusion: Training Diffusion Models on a Single Image or Video

Arxiv

0+阅读 · 2022年11月21日

Shape, Pose, and Appearance from a Single Image via Bootstrapped Radiance Field Inversion

Arxiv

0+阅读 · 2022年11月21日

MATE: Masked Autoencoders are Online 3D Test-Time Learners

Arxiv

0+阅读 · 2022年11月21日

Speech Dereverberation with a Reverberation Time Shortening Target

Arxiv

0+阅读 · 2022年11月18日

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

VIP会员