本论文探讨了计算机视觉在赋予计算机通用智能方面的关键作用,重点关注如何开发算法,使机器能够感知并理解其三维环境。研究分为两个部分:判别式学习方法与生成式学习方法,并通过三个核心章节构建三维场景理解的整体框架。
在判别式学习方面,论文提出了一种用于点云分割的新方法,这是道路场景感知中的关键任务。该方法能够在整体处理点云的同时保留局部信息,即使在处理大规模输入数据的计算挑战下,仍能在对象与场景的分割中取得高精度表现。
生成式学习部分则聚焦于从二维图像生成完整的三维场景。论文首先研究了利用体渲染技术生成 3D 场景的相关方法,并提出了一种基于 Transformer 的端到端学习方法,作为物理渲染方法的替代方案。此外,论文借鉴现代游戏引擎的思路,设计了捕获场景光照信息的新方法,以提升渲染质量。
进一步地,研究还探索了基于 3D 高斯球体光栅化的新型渲染方法,并提出了另一种获取光照信息的策略,以进一步提升渲染效果。
本研究旨在促进计算机对三维世界的感知与交互能力,为自动驾驶、增强现实以及虚拟协作等下游应用带来显著优势,为实现机器理解 3D 世界的长远目标贡献了重要力量。