神经辐射场(NeRF)自发布以来重新定义了3D场景表示。NeRF能够有效地从2D图像重建复杂的3D场景,推动了场景理解、3D内容生成、机器人技术等不同领域和应用的发展。尽管在研究方面取得了显著进展,但关于近期创新、应用和挑战的全面综述仍然缺乏。本综述汇总了关键的理论进展和替代表示方法,探讨了新兴的挑战,并进一步探索了在重建中的应用,突出了NeRF对计算机视觉和机器人技术的影响,同时回顾了关键数据集和工具包。通过识别文献中的空白,本综述讨论了开放性挑战,并为未来的研究提供了方向。

CCS概念:• 计算方法 → 计算机视觉表示;计算机图形学;计算机视觉。附加关键词:神经辐射场,神经渲染,视角合成,3D重建

1 引言三维(3D)空间的感知和解释从根本上塑造了人类与物理世界的互动。使计算机视觉系统能够理解和处理现实世界中的3D信息,对于机器人技术、电子健康、沉浸式仿真等众多应用至关重要。一个具备3D能力的系统的关键组成部分是选择合适的3D基本元素来表示物体和场景。与作为2D图像统一表示的像素不同,3D表示有多种选择,例如体素、网格和点云。有效的3D表示必须保持精度和可扩展性,以便高效地表示3D世界,同时能够与深度学习框架和先进的3D视觉系统进行集成学习。传统的3D表示方法在满足这些计算要求方面存在显著的局限性。虽然体素和点云可以兼容基于深度学习的框架,但它们存在离散化伪影——体素面临可扩展性限制,而点云缺乏连接性——并且几何精度有限。网格在表示复杂几何形状方面表现优异;然而,它们的不规则拓扑和元素形状阻碍了与深度学习框架的集成。近年来的研究引入了隐式神经表示(INRs),以克服这些局限性。INRs通过神经网络参数化的连续隐式函数,实现了准确且内存高效的场景表示。早期的工作通过神经网络将3D坐标映射到有符号距离函数(SDFs)[142]或占据场[130]。然而,这些方法需要3D真值数据,这通常很难获取。虽然2D图像采集更为简单,但连接2D图像监督与3D INR优化之间依然存在一个基本挑战。神经辐射场(NeRF)[134]的引入通过仅依赖2D观测实现了有效的3D INR训练,极大地推动了这一领域的发展。NeRF引入了一个优雅的框架,用于学习具有连续体积函数的3D场景,该函数将3D位置和视角方向映射到RGB颜色和密度。通过体积渲染[80],NeRF仅从2D图像及其对应的相机姿态中重建3D场景,从而实现了高保真度、逼真的新视角合成。自2020年引入以来,NeRF在计算机图形学和3D视觉领域引起了广泛的研究关注。基础性工作已经增强了NeRF模型的效率和精度,解决了复杂现实世界场景中的挑战,同时涌现出众多应用,推动了各类3D视觉任务的发展。随着成千上万篇与NeRF相关的最新研究,针对这一主题的全面综述变得迫切且至关重要。1.1 我们的贡献目前已有一些与NeRF相关的综述论文[12, 50, 154, 242, 269],它们部分涵盖了NeRF的研究主题,或并未完全更新。例如,大多数综述主要集中在解决复杂现实世界挑战的几个方面,而[196, 231]虽包含了NeRF相关的研究,但其关注的主题更为广泛——神经渲染[196]和神经场[231],因此仅部分涵盖了NeRF相关的研究内容。表1总结了这些局限性。我们的综述填补了这一空白,全面覆盖了从基础改进到实际应用的NeRF相关进展(如表1所示),帮助读者识别关键的研究方向,找到解决特定挑战的合适方案,并为社区提供宝贵的见解。本综述首先深入概述了NeRF相关的基础性进展,接着总结了基于NeRF框架的近期替代表示方法。然后,我们详细识别了可能影响NeRF在现实世界应用中鲁棒性和泛化能力的潜在挑战。此外,我们探讨了各种重建任务——这些任务对于评估场景表示至关重要——并进一步研究了NeRF作为计算机视觉和机器人技术的基本构建块的潜力。为了进一步支持该领域的研究,我们提供了广泛收集的常用数据集和工具,向研究人员提供有价值的资源。最后,我们强调了NeRF相关研究中的现有研究空白和关键开放挑战,旨在激励社区进一步改进NeRF模型,并将其作为强大的3D表示工具,推动各类视觉任务的发展。1.2 组织结构本综述的范围如图1所示,文章结构如下:第二部分提供了NeRF的概述,并深入回顾了提升渲染质量和效率的不同基础性改进策略,随后在第2.6节简要介绍了替代表示方法。第三部分则深入分析了各种潜在的现实世界挑战,并为每个方面提供了相应的解决方案。我们探讨了包括重建(第4节)、机器人技术(第5.1节)、识别(第5.2节)和人工智能生成内容(AIGC)(第5.3节)在内的各种NeRF应用任务。此外,第6节汇总了常用工具和数据集。最后,第7节讨论了NeRF研究中的开放挑战和关键研究方向。

2. NeRF的基础

2.1 NeRF的基本原理

2.2 采样蒙特卡洛采样近似在未知密度分布的情况下计算密集。从未知密度分布中,采样必须详尽无遗才能正确近似像素的颜色C^C^,近似误差的改进与采样点的数量成线性关系,这使得计算成本高昂。通过明智地选择场景非空空间中的积分段,可以实现更高的采样效率。为此,NeRF中的分层体积采样方案使用粗糙模型来估计粗略的密度分布,指导精细模型的采样,并提高数值近似效率。

2.3 编码标准编码(公式2)平等对待每个频率信号,导致在不同分辨率下渲染时出现问题。高频位置编码特征可能会产生混叠,导致称为“锯齿”的伪影。此外,深度网络直接从编码的输入坐标处理辐射场,这需要大型且计算成本高昂的多层感知器(MLP)来准确表示场景。 2.4 辐射场估计辐射场估计的进展朝着更高的渲染质量、更快的训练和渲染速度以及更紧凑的模型发展。在本小节中,我们将讨论提高效率和紧凑性的四种主流技术。

2.4.1 预缓存预缓存(或烘焙)通过预计算和将几何或外观数据表化到基于网格的数据结构(如体素网格)中来加速渲染。固有的挑战是以低内存占用存储视图依赖的颜色信息。

2.4.2 张量秩分解/因式分解张量秩分解是一种将复杂特征向量分解为多个低秩张量分量的技术,从而提高训练效率并减少内存占用。

2.4.3 分而治之为了提高NeRF模型的计算效率,通常将复杂的NeRF模型分解为多个较小的专用单元,然后合并它们的渲染输出。

2.4.4 替代架构一些研究人员重新审视了架构选择,并采用了最近大型模型或生成模型的进展来构建类似NeRF的模型并增强渲染性能。

2.5 体积渲染经典的体积渲染假设3D空间充满了可以吸收、发射和散射光的粒子,沿时间参数化的射线积分辐射。NeRF通过仅考虑吸收和发射简化了这一框架,使用体积渲染方程(公式3)作为其自监督训练的基石成分。

2.6 NeRF无关的增强尽管取得了基础进展,但一些工作作为NeRF无关的插件来增强效率或渲染质量。

2.7 替代表示尽管NeRF产生了令人印象深刻的结果,但存在一些不基于体积渲染公式的新视角合成替代方案。

3. 现实世界中的挑战

3.1 退化视图传统的NeRF模型通过最小化预测和观察像素值之间的总平方误差进行优化,依赖于高质量训练视图提供的射线与其相关像素值之间的准确对应关系。然而,在现实世界的设置中,训练视图经常受到不同损坏的影响,例如1)低光场景中的噪声和低动态范围(LDR),2)运动模糊和散焦,3)低分辨率,和4)雾霾。3.2 稀疏训练视图NeRF从一组姿态图像中进行训练。像多视图立体一样,NeRF的训练强烈依赖于从不同视角融合信息以成功提取有意义的3D信息。视图方向缺乏多样性提供了关于正确几何形状的有限信息,使得训练NeRF的逆问题变得不适定。3.3 不准确的相机姿态NeRF的训练需要准确的相机姿态以精确学习3D场景。最近的工作探索了如何在训练期间估计或校正姿态信息。3.4 复杂的光效NeRF将预期颜色建模为位置和视图方向的函数,但通常难以捕捉复杂现实世界光照下的物体外观。视觉效果如反射、遮挡和阴影也取决于表面特性,如材料属性、光滑度和环境光照。3.5 复杂场景配置原始的NeRF公式假设重建的场景是静态的、以物体为中心的或面向前的,并且空间上有界。然而,现实场景可能违反其中一些要求。3.6 不确定性量化在复杂和模糊的现实世界场景中,量化NeRF模型中的不确定性对于实际应用至关重要。

3.7 对未见场景的泛化能力原始的NeRF将3D场景编码到基于坐标的MLP的权重中,需要每次遇到新场景和几何形状时从头开始进行昂贵的优化。

4. 重建任务

4.1 3D表面重建NeRF可以生成新视角,但从基于密度的场景表示中提取高质量表面使用诸如行进立方体等方法会导致由于表面约束不足而导致的结果不佳。

4.2 大规模场景重建大规模场景重建为NeRF引入了特定挑战,因为数据集的大尺寸和传感条件的变化,例如水下环境或城市规模景观的应用。

4.3 医学图像重建相机用于多种医疗应用,如皮肤检查伤口、癌症检测和内窥镜检查。与其他应用类似,NeRF对未见视图的泛化能力使Psychogyios等人能够扩展内窥镜成像中的有限数据集。

5. 超越重建的计算机视觉任务

5.1 机器人应用

5.1.1 SLAMSLAM同时映射未知环境并跟踪机器人的位置。传统的SLAM方法依赖于从相机图像或LiDAR扫描中提取特征或深度估计。NeRF通过提供从2D图像中连续、可微的场景表示来增强SLAM。

5.1.2 路径规划路径规划对于自主机器人导航至关重要,确保无碰撞轨迹。NeRF通过提供从2D图像中高保真度的3D表示来改进路径规划,使详细的几何理解和动态环境中的平滑轨迹规划成为可能。

5.1.3 机器人控制高级任务如路径规划和感知依赖于在复杂环境中控制机器人,这些环境中具有挑战性的物体。NeRF的高保真度3D表示为机器人系统提供了详细数据,以改进控制。

5.2 识别任务视觉识别是计算机视觉中的一个基本问题,涉及识别视觉数据中的语义实体。这包括但不限于语义分割、物体检测和物体跟踪。

5.3 人工智能生成内容(AIGC)最近,AIGC技术如Stable Diffusion和DALL-E在文本到图像生成和图像编辑方面取得了令人印象深刻的成果。将这些生成能力从2D扩展到3D内容为娱乐如视频游戏和创意产业如沉浸式体验开辟了新的机会。

6. 工具和数据集

6.1 工具6.1.1 数据集生成合成数据集通常通过完全可控的变量创建,是开发有效NeRF算法的关键第一步。6.1.2 数据预处理大多数NeRF方法需要相机姿态作为先验,计算相机姿态是预处理多视图图像的重要步骤。6.1.3 训练和优化为了标准化NeRF模型的训练和优化,并促进用户友好的NeRF模型交互,NeRFStudio提供了一个易于使用的API,用于模块化NeRF开发。

6.2 数据集本节总结了用于NeRF相关新视角合成和3D重建任务的典型数据集。

7. 讨论和开放挑战

本调查报告回顾了关键的NeRF相关进展,以提高表示3D场景的准确性和效率,并探讨了其在现实世界问题中的适用性。我们涵盖了增强渲染质量和效率的策略,分析了解决现实世界挑战的方案,并探讨了在重建、AIGC、识别和机器人等领域的应用。最后,我们编制了常用的数据集和有用工具的列表。在本节中,我们退后一步,探讨了未来推进NeRF的开放挑战。当前的NeRF增强在高达1K分辨率的图像上产生了令人印象深刻的结果。然而,当处理更高分辨率(如4K)时,渲染时间比1K图像增加了一个数量级,限制了广泛采用。廉价移动设备的兴起,能够获取高分辨率图像但计算资源有限,突显了优化NeRF以提高效率和紧凑性的必要性,同时最小化GPU需求。随着NeRF性能的不断提高,重新审视测试集的选择和评估指标至关重要。当前的评估严重依赖于参考2D图像,使其对测试相机分布、测试视图质量和场景遮挡敏感。

在第3节中,我们确定了关键的潜在现实世界挑战。尽管在从退化视图中提高NeRF性能的研究取得了进展,但尚未解决各种退化类型,如压缩伪影。克服这一限制并构建一个能够处理盲退化类型的NeRF模型可能是一个雄心勃勃但有趣的方向。主流研究集中在逆渲染与反射和阴影建模上,但需要更多努力来处理折射和散射,这些在水下和玻璃场景中很常见。在现有的动态NeRF中,平衡计算复杂性与精确运动建模(包括刚性和非刚性运动)之间的权衡仍然是一个挑战。此外,识别和模拟局部动态运动以及准确建模更大动态(如光照变化)的有效框架对于现实世界场景是必要的。此外,提高NeRF的不确定性量化和泛化能力对于实际现实世界应用至关重要。不确定性量化中的开放问题包括:

1)什么构成了NeRF的良好量化不确定性?2)我们能否高效地量化认知和随机不确定性?对于泛化能力,尽管在未见场景的渲染方面取得了令人印象深刻的成果,但在长时间训练和未观察区域细节不足方面仍然存在挑战。3D视觉领域见证了NeRF的广泛采用,改变了各种数据类型(如医学成像)的3D表面重建。现实世界的应用需要处理多样化的信号,最近的研究展示了使用多模态输入(如语义标签、事件流、多光谱数据和音频)来通知和增强3D场景学习的潜力。尽管处于早期阶段,这一研究方向呈现了一个有前途但尚未充分探索的领域:如何高效地利用来自多样化信号的先验知识进行3D场景学习。一个令人兴奋的挑战在于开发直接从其他信号(如机器人中的SLAM算法生成的姿态估计数据)训练和推断NeRF模型的系统。除了重建任务外,NeRF越来越多地影响传统的计算机视觉任务,如3D语义分割。学习3D场景自然支持自监督学习。看到NeRF如何无缝集成并改进各种大规模3D下游任务是令人兴奋的。此外,大型模型的进展可能进一步提升NeRF的性能,可能绕过传统的相机姿态估计和重建步骤。这可能导致直接相机姿态估计和NeRF学习,使用如Transformer等大型模型。NeRF还重塑了AIGC,尽管现有的基于NeRF的3D生成技术仅限于梦幻风格的物体生成,通常缺乏精细的现实细节,并且需要长时间优化。开发高保真度、实时、忠实和可控的3D生成技术将有益于AR/VR和创意产业。相反,生成模型可以用于改进重建。有一种趋势是利用从大规模图像资产中学到的生成先验来丰富未观察区域的细节并促进场景学习。然而,考虑这些生成方法的伦理和版权影响至关重要。

8. 结论

NeRF作为一种强大的3D场景表示方法,已经在计算机视觉和图形学领域取得了显著进展。尽管在渲染质量、效率和泛化能力方面取得了重要突破,但仍有许多开放挑战需要解决。未来的研究应继续优化NeRF的计算效率,探索多模态输入的应用,并开发更高效的3D生成技术。通过这些努力,NeRF有望在更多现实世界应用中发挥重要作用,推动3D视觉和图形学的进一步发展。

成为VIP会员查看完整内容
15

相关内容

机器人中的神经场:综述
专知会员服务
31+阅读 · 2024年11月1日
脑启发的人工智能:全面综述
专知会员服务
45+阅读 · 2024年8月30日
金融时间序列预测中的可解释人工智能(XAI)综述
专知会员服务
40+阅读 · 2024年7月25日
视觉语言导航:大模型时代的综述
专知会员服务
47+阅读 · 2024年7月10日
《LLMs遇见多模态生成与编辑》综述
专知会员服务
41+阅读 · 2024年6月3日
视频扩散模型:综述
专知会员服务
36+阅读 · 2024年5月8日
《3D神经风格化进展》综述
专知会员服务
28+阅读 · 2023年12月24日
专知会员服务
33+阅读 · 2021年10月8日
【NeurIPS 2020】通过双向传播的可扩展图神经网络
专知会员服务
28+阅读 · 2020年11月3日
时空数据挖掘:综述
专知
25+阅读 · 2022年6月30日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
综述:DenseNet—Dense卷积网络(图像分类)
专知
85+阅读 · 2018年11月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
机器人中的神经场:综述
专知会员服务
31+阅读 · 2024年11月1日
脑启发的人工智能:全面综述
专知会员服务
45+阅读 · 2024年8月30日
金融时间序列预测中的可解释人工智能(XAI)综述
专知会员服务
40+阅读 · 2024年7月25日
视觉语言导航:大模型时代的综述
专知会员服务
47+阅读 · 2024年7月10日
《LLMs遇见多模态生成与编辑》综述
专知会员服务
41+阅读 · 2024年6月3日
视频扩散模型:综述
专知会员服务
36+阅读 · 2024年5月8日
《3D神经风格化进展》综述
专知会员服务
28+阅读 · 2023年12月24日
专知会员服务
33+阅读 · 2021年10月8日
【NeurIPS 2020】通过双向传播的可扩展图神经网络
专知会员服务
28+阅读 · 2020年11月3日
相关资讯
时空数据挖掘:综述
专知
25+阅读 · 2022年6月30日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
综述:DenseNet—Dense卷积网络(图像分类)
专知
85+阅读 · 2018年11月26日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员