关注公众号,回复“大规模室外图像3维重建技术研究进展”,即可下载详版学科发展报告。
点击阅读原文,即可阅读精简版学科发展报告。
摘要
基于图像的三维重建,旨在从一组二维多视角图像精确地恢复真实场景的几何形状,是计算机视觉和摄影测量中一个基础且活跃的研究领域,具有重要的理论研究意义和应用价值,在智慧城市、虚拟旅游、数字遗产保护、数字地图和导航等领域有着广泛的应用。近年来,随着图像采集系统(包括智能手机、消费级数码相机、民用无人机)的普及和互联网的高速发展,用户可以通过搜索引擎(例如谷歌)轻松获取大量的关于某个室外场景的互联网图像。如何利用这些图像进行高效、鲁棒、准确的三维重建,为用户提供真实感知和沉浸式体验,已经成为研究热点,引发了学术界和产业界的广泛关注,现已涌现多种多样的解决方法。特别地,深度学习的出现为大规模室外图像三维重建的研究提供了新的契机。本文首先阐述大规模室外图像三维重建的基本串行过程,包括图像检索、图像特征点匹配、运动恢复结构、多视图立体。然后,本文将区分传统方法和基于深度学习的方法,系统而全面地回顾大规模室外图像三维重建技术在各个重建子过程中的发展和应用。之后,本文详细总结各个子过程中适用于大规模室外场景的数据集和评价指标。最后,本文将介绍现有主流的开源和商业三维重建系统以及国内相关产业的发展现状。
国内外研究进展比较
近年来,对大规模室外图像三维重建的研究热度不断提升。从当前的现状来看,国外虽然起步较早,在开源三维重建系统方面的领先优势仍然显著,但是在商业领域,国内许多机构和团队已经达到与国际同步甚至在某些方面处于领先水平。
开源三维重建算法目前主要集中在国外研究机构,如苏黎世理工大学的Marc Pollefeys团队、北卡罗来纳大学教堂山分校的Jan-Michael Frahm团队、布拉格捷克技术大学的Tomas Pajdla团队等等。以上这些机构几乎都有十年以上的研究历史。国内方面,虽然技术积累相比于国外有欠缺,但基于国际范围已有成果,近年来发展非常迅速。其中,香港科技大学的权龙团队和中科院自动化研究所的申书含团队处于领先地位。具体来说,国内的科研人员常常将深度学习与图像检索、图像特征点匹配和多视图立体等子任务相结合,取得了一定的突破和进展,在高水平会议期刊上发表了大量优秀的论文。
在商业方面,国内三维重建软件发展迅猛。国内一些三维重建公司与武汉大学测绘遥感信息工程国家重点实验室进行产学研合作开发出商用三维重建软件,包括武汉天际行科技有限公司和武汉大势智慧科技有限公司等。国外商业技术软件Context Capture、PhotoScan、Pix4DMapper在处理大规模倾斜数据时,存在重建速度慢,占用大量内存,而且常遇到稀疏重建断裂、分层、弯曲等问题。这些问题需要内业人员手动标记控制点,或者尝试不同参数反复试验才有可能解决。国内的三维重建软件针对性地提出了一些解决方案,比如中测智绘研发的Mirauge3D,可以并行分布式进行运动恢复结构,可在128G内存的机器上进行10万张级影像的高精度处理。Mirauge3D算法鲁棒,对于带状区域(如公路沿岸)、弱纹理图像(如沙滩)、高程变化剧烈(如山区)等具有挑战的场景,也能出色完成任务。当前,国内从事三维重建的公司正在朝着一站式的服务发展。例如,武汉大势智慧科技有限公司既生产硬件,又提供制作软件产品。在硬件方面,该公司推出了“双鱼”倾斜摄影相机以便数据采集,“重建农村”高密计算一体机以便数据处理。在软件方面,该公司推出了建模软件“重建大师”,后期修模软件“模方(Model Fun)”以及实景三维浏览器“DasViewer”。总之,国内的商业软件与国外相比,虽然发展时间短,系统性与完备性方面还有待进一步发展,但由于国内对三维重建在遗产保护、城市规划、智慧安防、灾害治理等实际项目上都有强劲的需求牵引,发展十分迅速。
随着基于图像的大规模三维重建的研究逐渐成熟,国际上先进的国家已组织开展基于高分辨率卫星图像的三维重建、多种传感器融合重建等前沿探索工作。国内方面,对上述技术的研究虽说正在进行,但是还略显不足。
发展趋势与展望
本文区分传统方法和基于深度学习的方法,系统地回顾了大规模室外图像三维重建技术的最新发展和应用情况。虽然近十年来,基于图像的三维重建技术已经取得了巨大的进步,但是当前方法仍然存在一些问题:
1)对于纹理重复的场景(如天坛),运动恢复结构过程会失败,导致注册相机位姿有误,重建模型不完整;对于弱纹理的场景(如湖面、玻璃幕墙)等,多视图立体过程会失败,导致重建模型有空洞。在产业界中,一般采用耗时的人工干预方案来解决这些问题。对于注册相机位姿有误的问题,需要在重建场景中预先用油漆标注像控点。在图像特征点匹配阶段,人工指定在不同图像中的像控点必须完成匹配,以保证图像对之间正确的对极几何约束。对于重建模型有空洞的问题,需要在重建结束后,对模型进行人工修模后处理,使用从拍摄图像中截取的纹理对模型空洞进行填补。
2)当前三维重建系统重建场景(特别是大规模场景)需要耗费大量时间,距离实时重建有较大差距。在产业界中,一般采用降低重建精度和提高计算机硬件配置两种方案来提升重建速度。降低重建精度指在拍摄过程中,在保证场景全覆盖的基础上,通过增加拍摄距离以降低拍摄图像数量,减少重建的计算开销。提高计算机硬件匹配指使用更先进的CPU、GPU,更大的内存,甚至配置计算集群进行重建。
针对以上的问题,我们对大规模室外图像三维重建技术的未来发展进行展望:
1)对于纹理重复场景的三维重建,提高图像检索和图像特征点匹配的鲁棒性,降低误匹配率非常重要。目前,在用于图像检索和图像特征匹配的标准数据集中,基于深度学习的方法之所以能领先传统方法,很大程度源于其对复杂场景的鲁棒性更高。但是,当前基于深度学习方法也无法完全解决复杂的实际问题。如何借助深度学习解决图像检索和特征点匹配仍然是近年研究热点之一。对于弱纹理场景的三维重建,学术界和产业界中能实际运用的解决方案不多。最近一些研究引入了语义识别技术,在图像中提前识别出弱纹理的区域,在重建过程中针对这些区域进行特别处理。如何将基于几何约束的三维重建和场景语义识别深度融合,共同完成机器对大规模室外场景的重建和认知是未来研究方向之一。
2)对于三维重建低效的问题,学术界最近几年开始研究基于端到端深度学习的三维重建,通过输入拍摄图像集,直接输出重建模型。但是,这类方法目前还只适用于一些单一、简单物体的端到端三维重建。如何将端到端深度学习的三维重建运用到大规模的、丰富的室外场景也是未来研究方向之一。
3)随着三维传感器(如LiDAR、ToF等)价格的大幅降低,其越来越贴近于消费级应用。这些传感器可用于有效弥补基于图像的三维重建的不足。对于弱纹理场景的三维重建,三维传感器可以直接在空间中生成该区域的相关点云。对于三维重建低效的问题,三维传感器可以保证点云实时采样,去除重建过程中繁重的计算开销。如何在基于图像的三维重建过程中更好地融入多传感器数据也是未来研究方向之一。
报告章节一览
1. 引言
2. 国际研究现状
2.1 基于传统方法的三维重建技术
2.1.1 图像检索
2.1.2 图像特征点匹配
2.1.3 运动恢复结构
2.1.4 多视角立体
2.2 基于深度学习的三维重建技术
2.2.1 图像检索
2.2.2 图像特征匹配
2.2.3 运动恢复结构
2.2.4 多视图立体
3. 国内研究进展
3.1 图像检索
3.2 图像特征匹配
3.3 运动恢复结构
3.4 多视图立体
4. 标准数据集和评价指标
4.1 图像检索
4.2 图像特征匹配
4.3 运动恢复结构
4.4 多视图立体
4.5 综合性数据集
5. 三维重建系统
5.1 开源三维重建系统
5.2 商业三维重建系统
6. 国内外研究进展比较
7. 结论与展望
组织结构
主任:
王涌天 北京理工大学
副主任:
陈崇成 福州大学
万华根 浙江大学
张茂军 国防科技大学
张晓鹏 中国科学院自动化研究所
梁晓辉 北京航空航天大学
秘书长:
张凤军 中国科学院软件研究所
感谢CSIG咨询与评议工作委员会的大力支持。
CSIG咨询与评议工作委员会的主要工作包括就学科发展和学会发展组织撰写专家建议白皮书,组织科技成果鉴定。
主任:
李 波 北京航空航天大学
副主任:
王涌天 北京理工大学
秘书长:
张永飞 北京航空航天大学
委员:
汪 萌 合肥工业大学
王 程 厦门大学
颜 波 复旦大学
闵卫东 南昌大学
刘青山 南京信息工程大学
贾 森 深圳大学
高 峰 中国海洋大学
彭宇新 北京大学