摘要——在空间智能与整体场景感知需求的驱动下,提供完整 360° 视场的全景图像(Omnidirectional Images, ODIs)正在虚拟现实、自动驾驶和具身机器人等多种应用中受到越来越多的关注。尽管具有独特特性,ODIs 在几何投影、空间分布与边界连续性方面与透视图像存在显著差异,这使得直接基于现有透视方法的领域自适应极具挑战。本文对全景视觉的最新技术进行了全面综述,特别强调了从透视到全景的适配问题。首先,我们回顾了全景成像流程与投影方法,以建立分析 ODIs 与透视图像结构差异所需的先验知识。随后,我们总结了领域自适应中的三大挑战:极点区域的严重几何畸变、等矩形投影(Equirectangular Projection, ERP)的非均匀采样,以及全景边界的周期连续性。在此基础上,我们涵盖了 300 余篇研究论文中的 20 余个代表性任务,并从两个维度进行讨论:一方面,跨方法地分析了不同任务中应对全景特定挑战的代表性策略;另一方面,跨任务地进行比较,将全景视觉划分为四大类:视觉质量增强与评估、视觉理解、多模态理解和视觉生成。此外,我们还探讨了开放挑战与未来方向,重点强调将推动全景视觉研究发展的数据、模型与应用。与以往侧重于任务特定流程的综述不同,本文提供了更为统一且动态演进的全景视觉学习图景。我们希望本研究能为推动全景视觉技术的发展提供新的洞见与前瞻性视角。我们的项目页面为 https://insta360-research-team.github.io/Survey-of-Panorama/。 关键词——全景视觉,领域差异,投影畸变。
近年来,计算机视觉技术在理解二维透视图像方面取得了显著进展,推动了识别、重建与生成等广泛任务在众多实际应用中的发展。在深度学习的驱动下,许多经典的体系结构与学习范式基于相机的透视投影假设得以发展,并受益于公开可用的数据集【1–4】以及大规模的实际部署【5,6】。然而,随着对沉浸式感知与整体场景理解需求的不断增长,能够提供完整 360° 视场的全景图像(Omnidirectional Images, ODIs)逐渐引起研究界的广泛关注。与传统透视图像相比,ODIs 能够提供更广的空间覆盖和更丰富的上下文信息,使其在虚拟现实(VR)【7】、自动驾驶【8】和具身机器人【9】等新兴应用中不可或缺。 尽管具有潜力,ODIs 在成像几何上与透视图像存在显著差异。如图 1 右所示,全景表示引入了独特挑战,包括几何畸变、空间采样不均匀以及边界连续性问题,这些在标准的等矩形投影(Equirectangular Projection, ERP)格式中尤为常见。这些差异导致了极端的领域差异(domain gap),使得在透视图像上训练的方法往往难以有效泛化到全景场景。传统深度模型中内嵌的平面假设限制了其处理球面几何与全场景覆盖的能力,从而削弱了透视方法的适应性,减缓了全景视觉的发展进程。因此,专为全景视觉设计的方法开始不断涌现。除非另有说明,本文将“omnidirectional”和“panoramic”视为等同概念,均指代 360° 视场。 在过去十年中,已有多篇综述研究了全景视觉的特定方面,包括 360° 视频传输与压缩【10,11】、视觉质量评估【12】、室内布局估计【13】、超分辨率【14】、光学系统【15】以及三维感知任务【16–19】。最近,有工作【20】从系统层面回顾了深度学习在全景视觉中的应用。与其基于结构范式的分类不同,本文从更为基础的“透视–全景鸿沟”出发,深入探讨透视与全景表示在任务层面的差异,并系统性地分析由此产生的方法学变迁。我们的目标是为解决全景视觉任务提供方法论层面的洞见,同时结合前沿技术以拓展未来的研究方向。 基于这一动机,我们从透视到全景的视角,系统性地考察了针对各类任务的 ODI 方法,分析了跨方法(vertical, cross-method)和跨任务(horizontal, cross-task)两种维度上弥合领域差异的策略与努力。此外,我们特别强调两个方面:一方面,关注 ODI 成像系统与若干新兴快速发展的技术,突显基于 ODI 先验的扩散模型、自回归模型及三维重建式生成范式的潜力;另一方面,讨论现有方法的局限性与未来的研究方向。通过这两个维度,我们力图呈现全景视觉方法学版图的整体理解,并揭示几何、语义与生成交叉点上的创新机会。 为此,本文综述了 300 余篇研究论文,涵盖 20 余个代表性任务,并围绕全景视觉的若干核心组成部分展开:第 2 节回顾了全景成像流程,从采集到拼接与投影,为理解全景–透视差异奠定基础,并支持后续的方法学分析;第 3 节提出了 ODIs 的三大内在特性,它们将 ODIs 与透视图像区分开来,并揭示了领域差异的根源,随后结合跨方法分析总结了代表性的应对策略;第 4 节进行跨任务比较,综合提炼共性洞见并突显方法学趋势,同时识别出若干快速发展的技术,如扩散模型、三维高斯斑点(3D Gaussian Splatting)和多模态融合,这些方向正在不断涌现,但此前的综述尚未系统探讨;最后,第 5 节讨论开放挑战与未来发展方向,重点关注推动全景视觉研究的数据、模型与应用。 作为一种能够实现空间全面 360° 感知的独特模态,全景视觉在空间智能与沉浸式交互等多种应用中展现出强大潜力与实用价值。通过本次系统性综述,我们指出:通过迁移与适配透视视觉领域的研究经验来弥合现有研究鸿沟,将会极大促进全景计算机视觉的发展。我们希望本研究能为未来全景视觉领域提供更具洞察力与前瞻性的指导。