点击中国图象图形学报→主页右上角菜单栏→设为星标
(图片来自网络)
地图的三维信息+视频的时间信息会碰撞出什么火花呢?答案就是具备四维信息的城市视频实景地图。它对于互联网地图产品发展、城市立体监控系统构建、未来实景中国建设具有重要意义,有望带来万亿级市场机遇!
《中国图象图形学报》2019年第9期学者观点,同时也是封面文章《城市视频实景地图构建初探》从增强虚拟环境技术(AVE)角度出发,对全景摄像机标定、全景视频空间配准、视频纹理映射、实时渲染系列技术和方法等进行了梳理。
论文标题:城市视频实景地图构建初探
论文作者:吴军, 刘祺昌, 黄明益
主题词:视频实景地图; 3维地图; 虚拟现实; 全景摄像机标定; 视频空间配准; 视频纹理映射; 实时渲染
引用格式:Wu J, Liu Q C, Huang M Y.Preliminary exploration on the construction of urban video real-scene map[J]. Journal of Image and Graphics, 2019, 24(9): 1409-1415. [吴军, 刘祺昌, 黄明益. 城市视频实景地图构建初探[J]. 中国图象图形学报, 2019, 24(9): 1409-1415.]
[DOI: 10.11834/jig.190112]
全文链接:
学者观点
● 适合传统“针孔”模型的摄像机标定、影像空间配准理论和方法,需根据全景摄像机球面投影模型进行拓展;
● 适合静态纹理的大规模3D场景渲染LOD(levels of detail)技术和策略,需结合视频传输带宽限制、高帧率特点进行技术创新。
研究背景
监控摄像机广泛分布于城市不同区域(位置)的监控摄像机可提供实时视频,用于实现城市重点区域(目标)空间信息的持续、实时更新且实施成本低。然而,单一摄像机只能采集有限位置、视角的视频信息,其空间信息割裂、碎片化, 整体联动困难,不利于全面了解目标在区域内的行为状态。
地图可以弥补这一缺陷。具有统一地理框架的互联网地图可集成各类政治、经济、文化及公民个人行为信息。将城市监控视频与互联网地图相结合,有助于在宏观上把握监控区域整体安全态势, 克服传统监控画面相互孤立、缺乏关联性的应用局限,还能借助成熟地理信息技术强大的空间查询、统计、分析功能,大幅提高视频监控信息的综合管理、分析利用及决策水平,安防行业应用价值巨大。
(图片来自网络)
新型摄像机梳理
城市公共安全区域一般为广域场景,如车站、机场、港口等,大规模安装摄像机成本高且不能保证每一处位置监控不留死角,针对这一应用问题,当前安防市场上推出了具有360°/180°视野的新型全景网络摄像机,主要有鱼眼、多拼两类全景摄像机。
鱼眼全景摄像机具有视角广阔(接近甚至超过180°)、体积小、价格低廉等优点,适合于小范围区域全景视频信息采集。从球面投影原理出发,现有鱼眼相机标定方法主要利用空间直线在球面上投影为一个大圆(或在鱼眼图像上的投影为椭圆弧)的几何特性来求解模型参数,但全局优化中外部参数数量多,不准确的外部参数初始值极易使优化陷入局部最优。难点在于,如何发展无需拆卸监控设备的现场标定、不依赖于特定参照物模式及量测信息的自标定方法。
多拼全景摄像机通常由多个不同视角、物理独立的传统CCD摄像机固定于特定机械结构上得到,分辨率高、景深远,被广泛应用于室内、外大范围场所监控环境,目前商用主要有美国360Heros系列、Surround360系列、国内Insta360系列等。多拼全景摄像机中各子摄像机一般为传统“针孔”摄像机,故包括单相机标定和组合相机标定两部分内容,前者研究开展已较深入,困难在于如何通过简单的组合标定过程获得子摄像机间的相对外参(旋转矩阵、平移矢量),以确保利用该标定参数能将子摄像机采集的多路视频像素投影到设定球面(或柱面)生成高清全景视频。
(图片来自网络)
全景视频与三维地图融合方案
全景视频与三维地图融合实现存在以下两方面的问题:
● 视频传输效率与三维场景LOD渲染视觉质量、流畅效果间的平衡;
● 如何从高帧率全景视频中快速生成纠正的纹理影像。针对以上两方面问题,建议分别采用以下解决方案:
方案1
目前视频进入IPC后可编码提供两种码流——主码流和子码流。从融合整体效率及未来应用出发,可考虑建立面向城市视频实景地图服务的视频统一接入平台, 构建流媒体服务器从不同类型、不同编码的IPC全景摄像机中获取视频并经统一编码后再发送,从而使用户无需考虑摄像机具体型号和驱动。
方案2
利用GPU并行处理能力及其查找表计算特点,将全景视频动态纹理影像生成过程分为离线、在线计算两个阶段,以大幅提高全景视频纹理生成及映射效率。
纹理映射实施的前提是具有纹理影像并提供绘制所需的目标模型表面顶点物体坐标和纹理坐标,借助于全景摄像机标定、空间配准计算精确恢复的摄影几何模型及其空间映射关系。一方面利用三维地图模型表面在全景视频中的投影自动给出对应顶点、纹理坐标并对模型表面对应视频区域进行纠正以获得无失真视频纹理。
另一方面,当全景摄像机安装完毕且不发生移动,可利用恢复的全景摄影几何模型参数预先(离线计算)生成一个表征视频像素与其对应空间位置关系的映射查找表。三维场景LOD渲染(在线、离线)时则结合该查找表和LOD策略下加载的全景视频像素数据,利用GPU强大的并行计算能力实时生成纹理影像并映射到地图目标区域表面,从而确保带动态视频纹理的大规模三维地图场景具有良好的浏览和观赏体验。
(图片来自网络)
结论与展望
5G时代即将到来,制约城市实景地图应用的网络带宽问题有望基本解决,未来城市视频实景地图发展将得益于其巨大的行业应用、工程实践价值,并有力促进互联网、人工智能前沿技术发展:
● 实景三维地图的直观性、信息量和精确性远非传统地图可比
我国自然资源部将于今年启动“十四五”基础测绘规划编制工作,推动在实景三维中国建设、海洋测绘等方向凝练形成大项目、大工程。近十年来,相当一部分城市已试点三维地图构建(建模)工作,但实际应用价值不高,多限于三维演示,究其原因在于生产成本高、更新难度大、数据现势性有限。
融合已有监控视频和三维城市模型构建视频实景地图,将是最大化利用现有数据资源获得实景三维地图的有效途径,且能以一种低成本方式实现地图数据的自动、持续更新,对于实景三维中国建设推动作用不言而喻,并有望给相关行业带来万亿级市场机遇。
● 人工智能是引领未来的战略性技术
我国已制订并实施《新一代人工智能发展规划》,以之作为新一轮科技革命和产业变革的重要驱动力,加快建设创新型国家和世界科技强国。目前深度学习作为人工智能主流算法获得广泛关注并将继续引领人工智能算法发展方向,但深度学习模型主要是数据驱动的, 依赖于大规模多样性的标记数据集。
从这一角度而言,分别作为典型“空间大数据”、“时间大数据”的静态三维地图和动态视频,两者“深度”融合构成的城市视频实景地图及互联网地图长期应用中积累、集成的各类信息,无疑为更多纬度、更大(空间、时间)尺度、更多领域(行业)的深度学习研究开展提供了理想数据支撑与保障。
同时这些具有统一地理参考框架、时间基准及内在逻辑关系的有序大数据,也必将推动深度学习在模型构建、训练机制、效率提升等各方面的新探索,对人工智能算法发展以及新一代互联网地图产品、服务标准的形成产生深远影响,是一项值得研究重视的崭新课题。
延伸阅读
汪荣贵, 胡健根, 杨娟, 薛丽霞, 张清杨. 映射结合聚类的视频关键帧提取[J]. 中国图象图形学报, 2016, 21(12): 1652-1661.
郭玲, 王建宇, 黄炎焱. 真实感3D重建中的纹理映射技术[J]. 中国图象图形学报, 2018, 12(10): 1881–1884.
黄超, 彭宗举, 苗瑾超, 陈芬. 联合深度视频增强的3D-HEVC帧内编码快速算法[J]. 中国图象图形学报, 2018, 23(4): 500-509.
苗菁华, 孙延奎. 定位图像匹配尺度与区域的摄像机位姿实时跟踪[J]. 中国图象图形学报, 2017, 22(7): 957-968.
专家介绍
吴军,博士,教授,博士生导师,主要从事数字摄影测量、计算机视觉及光电信息处理研究方向。
E-mail:wujun93161@163.com
编辑推荐
本文系《中国图象图形学报》独家稿件
内容仅供学习交流
版权属于原作者
本公号将持续推出机器学习的系列资料和课件
欢迎大家关注!
编辑:狄狄
指导/审核:梧桐君
声 明
前沿丨观点丨资讯丨独家
扫描下方二维码 关注学报公众号
中国图象图形学报 | 订阅号