增强现实的关键技术
来源:科技导报
作者:王宇希,张凤军等
增强现实(augmented reality,AR)技术是将计算机生成的虚拟信息叠加到用户所在的真实世界的一种新兴技术,是虚拟现实技术的一个重要分支。它提高了用户对现实世界的感知能力,提供了人类与世界沟通的新的方式,近年来受到研究者的广泛关注。
增强现实的定义有两种,一种是由Milgram P 和Kishino F 提出的:将真实环境与虚拟环境放置在两端,其中靠近真实环境的叫增强现实,靠近虚拟环境的叫增强虚拟,位于中间的叫混合现实;另一种是Azuma定义的:以虚实结合、实时交互、三维注册为特点,利用附加的图片、文字信息对真实世界进行增强的技术。
与虚拟现实不同,增强现实技术利用三维跟踪注册技术来计算虚拟物体在真实环境中的位置,通过将计算机中的虚拟物体或信息带到真实世界中实现对现实世界的增强。近年来随着科技的发展,增强现实技术被广泛应用于工业、军事、医疗、教育等多个领域。
本文从跟踪注册技术、显示技术和人机交互技术3个方面概述增强现实系统中的关键技术,对增强现实技术在各领域的应用进行总结,并展望未来发展趋势。
增强现实的关键技术
跟踪注册技术
对于增强现实系统来说,一个重要的任务就是实时、准确地获取当前摄像机位置和姿态,判断虚拟物体在真实世界中的位置,进而实现虚拟物体与真实世界的融合。其中摄像机位姿的获取方法即为跟踪注册技术。从具体实现上来说,跟踪注册技术可以分为3类:基于传感器的跟踪注册技术、基于计算机视觉的跟踪注册技术及综合视觉与传感器的跟踪注册技术。
1)基于传感器的跟踪注册技术
基于传感器的跟踪注册技术主要通过硬件传感器,如磁场传感器、惯性传感器、超声波传感器、光学传感器、机械传感器等对摄像机进行跟踪定位。
磁场传感器根据磁发射信号与磁感应信号之间的耦合关系获得被测物体的空间方向信息,根据接收器的磁通量获得接收器和信号源之间的相对位置信息。这类设备一般较为轻巧,但环境中的金属物质会对磁场传感器产生干扰,进而影响跟踪注册的准确性。惯性传感器一般包括陀螺仪和加速度计等。陀螺仪可以用来测量物体的运动方向;加速度计可以用来测量物体的加速度。两者相结合就可以获得物体的位置和方向。超声波传感器跟踪根据不同声源发出的超声波到达目标的时间差、相位差和声压差实现跟踪注册。这类方法受外界环境影响较大。光学传感器通过分析接收到的反射光的光信号实现跟踪注册。机械传感器根据机械关节的物理连接来测量运动摄像机的位姿。综合来看,基于传感器的跟踪注册技术算法简单,获取速度快,但设备较为昂贵,且容易受外界环境的影响。
2)基于计算机视觉的跟踪注册技术
近年来图像处理与计算机视觉发展较快,一些较为成熟的技术已被应用于增强现实系统的跟踪注册中。基于计算机视觉的跟踪注册技术通过分析处理拍摄到的图像数据信息识别和定位真实场景环境,进而确定现实场景与虚拟信息之间的对应关系。该方法一般只需要摄像机拍摄到的图像信息,对硬件要求较低。
在实现方式上,基于计算机视觉的跟踪注册方法可分为基于人工标志的方法和基于自然特征的方法。
基于人工标志的方法一般将包含有特定人工标志的物体放置在真实场景中,通过对摄像机采集到的图像中的已知模板进行识别获得摄像机位姿,之后经过坐标系的变换即可将虚拟物体叠加到真实场景中。基于人工标志的方法最具代表性的是ARToolkit和ARTag。ARToolkit通过使用人工标志实现了快速准确的跟踪注册,但其在遮挡敏感;ARTag采用数字编码的方式在一定程度上增加了对遮挡的处理能力。图1展示了ARToolkit 中人工标志示例。图2展示了ARTag中的人工标志示例。
图1 ARToolkit人工标志示例
图2 ARTag人工标志示例
基于自然特征的方法通过提取图像中的特征点,并计算场景中同一个三维点在二维图像上的对应关系,优化获得三维点在世界坐标系中的位置以及摄像机的位姿。近年来,随着计算机视觉与人工智能的发展,同时定位与地图构建(simultaneous localization and mapping,SLAM)受到了人们的广泛关注。这类方法在跟踪注册的同时构建场景地图,具有运算速度快、精度较高的优点。基于自然特征的方法不需要人为地在真实场景环境增加额外的信息,只需要跟踪视频中捕获的场景中的自然特征,并经过一系列几何变换即可实现场景的跟踪注册。相比基于人工标志的方法,这类方法更简单、方便,但自然特征数目与跟踪效果的不稳定将对系统的运算速度和精度造成较大影响。
3)综合视觉与传感器的跟踪注册技术
在一些增强现实的应用场景,基于计算机视觉与基于传感器的方法均不能获得理想的跟踪效果,因此,研究者综合考虑二者的优缺点,将二者结合起来,以获得更优的跟踪注册效果。香港科技大学沈劭劼课题组提出的视觉惯性导航(visual-inertial navigation system,VINS)系统将视觉与陀螺仪和加速度计信息深度融合,在无人机和手持移动设备上均获得了较好的跟踪注册效果;苹果公司推出的ARKit和Google公司推出的ARCore增强现实软件平台分别支持iOS和Android操作系统,为移动端智能设备上的增强现实应用提供了无限可能。图3展示了在ARKit和ARCore平台上开发的移动设备上的增强现实应用示例。
图3 增强现实应用示例
显示技术
增强现实技术的最终目标是为用户呈现一个虚实融合的世界。因此,显示技术是增强现实系统中的重要组成部分。目前,常用的显示设备有头戴式显示设备、计算机屏幕显示设备、手持式移动显示设备及投影显示设备等。
1)头戴式显示设备
由于增强现实系统要求用户可以观察到现实世界的实时影像,头戴式显示设备主要是透视式头盔显示器。这类设备的主要功能是将用户所在环境中的真实信息与计算机生成的虚拟信息融合,按真实环境的表现方式可将其分为视频透视式头盔显示器和光学透视式头盔显示器。
视频透视式头盔显示器通过头盔上一个或多个摄像机来获取真实世界的实时影像,利用其中的图像处理模块和虚拟渲染模块进行融合,最终将虚实融合后的效果在头盔显示器上显示出来。
微软推出的Hololens增强现实眼镜采用全息技术,结合多个传感器,将虚拟内容投射成全息影像,实现虚实融合。这款眼镜内部集成了中央处理器(CPU)、图形处理器(GPU)和全息处理器(HPU),不需要连接任何其他设备就可以实现与现实世界的交互。Meta公司推出的Meta2同样是一款高沉浸感的增强现实眼镜,其较Hololens 具有更大的视场角,但追踪保真度仍有待优化,且在使用过程中需要连接电脑进行计算。图4为Hololens增强现实眼镜与Meta2增强现实眼镜外观。
图4 Hololens增强现实眼镜(a)与Meta2增强现实眼镜(b)
光学透视式头戴显示器根据光的反射原理,通过多片光学镜片的组合,为用户产生虚拟物体和真实场景相互融合的画面。与视频透视式头盔显示器相比,光学透视式头盔显示器在显示增强画面时,不需要经过图像融合的过程,用户看到的影像就是当前的真实场景与虚拟信息的叠加。
Google公司推出的Google Glass是一款光学透视式头盔显示器,其经过光学放大后将数据通过棱镜显示给用户(图5(a))。Google Glass可以通过声音控制,实现拍照、视频通话、全球定位系统(GPS)定位、文字处理、收发邮件等多种功能。Magic Leap公司发布了一款基于光场的头戴式增强现实设备Magic Leap One(图5(b))。这款设备利用外部摄像头和计算机视觉处理器实时追踪用户位置,同时在追踪过程中可以不断调整双眼的焦距,并将包含有深度信息的图像通过光场显示器显示出来。
图5 Google Glass(a)与Magic Leap One(b)
2) 计算机屏幕显示设备
计算机屏幕显示设备作为传统的输出设备一般具有较高的分辨率,且体积较大。在增强现实应用中,这类设备更适用于将精细虚拟物体渲染并叠加于室内或大范围场景中。由于这类设备沉浸感较弱,但价格较低,一般适用于低端或多用户的增强现实系统。
3)手持式移动显示设备
手持式移动显示设备是一类允许用户手持的显示设备。近年来智能移动终端发展迅速,现有的智能手持设备大都配备了摄像头、全球定位系统(GPS)和陀螺仪、加速度计等多种传感器,更具备了高分辨率的大显示屏,这为移动增强现实提供了良好的开发平台。与头盔式显示设备相比,手持式移动显示设备一般体积较小、重量较轻,便于携带,但沉浸感较弱,同时由于硬件的限制,不同设备的计算性能参差不齐。目前,随着iOS系统下的增强现实平台ARKit和Android系统下的增强现实平台ARCore的发布,后续的多数新款智能移动终端将支持增强现实技术。
4)投影显示设备
投影显示设备可以将增强现实影像投影到大范围环境,满足用户对大屏幕显示的需求。由于投影显示设备生成图像的焦点不会随用户视角发生变化,其更适用于室内增强现实环境。微软研究院的RoomAlive项目将Kinect、投影仪、摄像机和计算机结合起来,通过构建房间的三维图像将虚拟影像投影到整个房间,同时通过定位用户位置实现与虚拟世界的交互。
人机交互技术
增强现实系统的目标是构建虚实融合的增强世界,使用户能够在现实世界中感受到近乎真实的虚拟物体,并提供人与这一增强的世界交互。在这一过程中,人机交互方式的好坏很大程度上影响了用户的体验。一般来说,传统的交互方式主要有键盘、鼠标、触控设备、麦克风等,近年来还出现了一些更自然的基于语音、触控、眼动、手势和体感的交互方式。
1)基于传统的硬件设备的交互技术
鼠标、键盘、手柄等是增强现实系统中常见的交互工具,用户可以通过鼠标或键盘选中图像中的某个点或区域,完成对该点或区域处虚拟物体的缩放、拖拽等操作。这类方法简单易于操作,但需要外部输入设备的支持,不能为用户提供自然的交互体验,降低了增强现实系统的沉没感。
2)基于语音识别的交互技术
语言是人类最直接的沟通交流方式。语言交互信息量大,效率高。因此,语音识别也成为了增强现实系统中重要的人机交互方式之一。近年来,人工智能的发展及计算机处理能力的增强,使得语音识别技术日趋成熟并被广泛应用于智能终端上,其中最具代表性的是苹果公司推出的Siri和微软公司推出的Cortana,它们均支持自然语言输入,通过语音识别获取指令,根据用户需求返回最匹配的结果,实现自然的人机交互,很大程度上提升了用户的工作效率。
3)基于触控的交互技术
基于触控的交互技术是一种以人手为主的输入方式,它较传统的键盘鼠标输入更为人性化。智能移动设备的普及使得基于触控的交互技术发展迅速,同时更容易被用户认可。近年来,基于触控的交互技术从单点触控发展到多点触控,实现了从单一手指点击到多点或多用户的交互的转变,用户可以使用双手进行单点触控,也可以通过识别不同的手势实现单击、双击等操作。
4)基于动作识别的交互技术
基于动作识别的交互技术通过对动作捕获系统获得的关键部位的位置进行计算、处理,分析出用户的动作行为并将其转化为输入指令,实现用户与计算机之间的交互。微软公司的Hololens采用深度摄像头获取用户的手势信息,通过手部追踪技术操作交互界面上的虚拟物体。Meta公司的Meta2与Magic Leap公司的Magic Leap One同样允许用户使用手势进行交互。这类交互方式不但降低人机交互的成本,而且更符合人类的自然习惯,较传统的交互方式更为自然、直观,是目前人机交互领域关注的热点。
5)基于眼动追踪的交互技术
基于眼动追踪的交互技术通过捕获人眼在注视不同方向时眼部周围的细微变化,分析确定人眼的注视点,并将其转化为电信号发送给计算机,实现人与计算机之间的互动,这一过程中无需手动输入。Magic Leap 公司的Magic Leap One在眼镜内部专门配备了用户追踪眼球动作的传感器,以实现通过跟踪眼睛控制计算机的目的。
AR 技术应用
近年来,增强现实技术被应用广泛应用于工业维修、影视娱乐、医疗手术、教育培训等多个领域,并逐渐成为下一代人机交互技术发展的主要方向。
工业制造与维修领域
在工业领域,制造与维修流程一般较为复杂,往往包含成百甚至上千个步骤。操作过程一旦发生错误,将会造成巨大的损失。增强现实技术能够将已知的数据信息正确的发送给流水线上的工人,如在用户指向某一部位时系统显示该部位的名称、功能等,从而减少错误的发生,提高生产与维修效率。
在工厂中,增强现实系统还能从工业系统中捕获信息,获得每台设备与操作流程的检测和诊断数据并可视化,帮助维修人员找到可能出现问题的源头,并提醒工人进行预防式维修,减少因设备损坏导致停工带来的损失。Iconics公司将增强现实技术引入工业自动软件上,通过在理想位置投射相关信息,提高检测设备或流程的效率。
市场营销和销售领域
增强现实技术重新定义了产品展厅和演示的概念,并且完全颠覆了传统的客户体验。在购买之前,用户可以看到虚拟产品在真实环境下的状态,促使他们做出更符合实际预期的购买决策,进而提升客户的满意度。
EasyAR与汽车之家联合推出了AR看车软件,用户可以通过手机App将虚拟的车辆放置在真实场景中,在购车之前预览其在道路上奔驰的效果(图6)。瑞典宜家集团推出了一款名为IKEA Place的家具类应用,用户可以选择自己喜欢的家具叠加上现实场景中,避免在装修过程中出现的家具尺寸不合适,风格不统一等问题(图7)。
图6 “AR看车”手机应用软件效果
图7 “IKEA Place”手机应用软件效果
医疗领域
医学手术导航是增强现实技术的重要应用之一。由于很多医学手术具有较高的风险,任何小操作误差都可能带来严重的后果。增强现实技术对CT或医学磁共振成像(MRI)进行三维建模,并通过将构建的模型与病人身体精确的配准,为医生提供现实与虚拟叠加的影像,进而实现对医疗手术的导航作用。
Surgiceye公司在很多外科手术案例中引入了增强现实技术,如在外科手术中,医生可以直接通过增强现实技术“查看”病人身体内部、骨骼等信息。在实际应用中,将增强现实与常规诊断的显示方式相结合,帮助医生精确的找到病理位置。
军事领域
由于增强现实技术可以将真实世界与虚拟世界融合起来,同时允许用户实时交互,其被应用于军事领域的多个方面,在数字化战场上发挥了巨大作用。
在战场上,增强现实技术能够增强战场环境信息。根据输入的部队位置信息,增强现实系统不仅能向部队显示真实的战场场景,同时能够叠加额外的环境信息以及敌我双方的隐藏力量,实现多种战场信息的可视化。
在军事训练中,对战场的真实性有很高的要求;同时,很多环节需要反复多次,对装备消耗大。增强现实技术的引入不仅可以提供更为真实的战场环境,达到实战训练的效果,还允许士兵在进行反复操作,增加训练次数的同时减少对装备的消耗。
此外,考虑战场上指挥员对信息的掌握的重要性,引入增强现实技术可以使各级指挥官同时观看战场的实际情况以及叠加的各种信息,并与之进行交互,进而实现指挥中心与各级战斗人员之间的信息的快读传输与高度共享。指挥员在快速下达指挥命令的同时了解各个作战单元的情况,将地理上分散的小组联合成一个协同合作的整体。
影视、娱乐、游戏领域
在电视、电影制作方面,增强现实技术可以在真实拍摄的场景上,加入现实中不存在的虚拟景象或人物,如汽车爆炸、恐龙、科幻世界等。这种基于增强现实的“所见即所得”的拍摄方式,大大简化电视、电影制作中动画特效带来的工作量,降低制作成本。
在娱乐、游戏方面,增强现实技术可以用来提供各种体验项目,如将远古时代的恐龙、深海中的鲨鱼等不可能出现的动物放置到现实场景中,满足人们的好奇心;也可以将现实场景变身为战场,使用户能够在虚实融合的世界里与别的玩家进行对抗。近年来最具代表性的就是任天堂公司开发的增强现实游戏Pokeman Go,打开摄像头用户就可以捕捉现实世界中出现的小精灵并进行战斗。
教育领域
增强现实技术作为一种沉没式的学习方式,可以将丰富的资源信息和其他数据整合到用户能够观察到的现实场景中,为师生提供身临其境的学习环境,激发学生的学习兴趣,提升主观积极性。同时,增强现实技术能够构建目标对象的三维建模并显示,学生可以通过从不同视角观察模型,并与虚拟的模型进行交互,增强对目标对象的理解。此外,增强现实系统实时交互的特点削弱了位置、空间的限制,教师可以在课上或远程指导学生,弥补了现实环境中设备的不足,实现资源共享。
美国Z-Space公司开发出了一系列面向普通教育的应用软件,实现了老师、学生及三维场景之间的交互。
古迹复原与数字化遗产保护领域
增强现实技术的一个重要应用场景是室内博物馆导览,它通过在文物上叠加虚拟的文字、视频信息,为游客提供更多的文物导览解说。此外,增强现实技术还可以利用采集到的数据复原再现文物古迹,将极具真实感的虚拟影像展现在游客眼前,为游客提供身临其境的视觉体验。
Archeoguide 是一款基于增强现实的文物遗迹向导,通过GPS粗定位,能够为游客展现古迹复原后的希腊奥林匹亚神庙。由北京理工大学王涌天课题组研究的基于增强现实的圆明园景观数字重建技术将部分圆明园遗址做很好的还原,真实感很强,游客可以从圆明园废墟前看到重建后的皇家园林。
结 论
近年来,增强现实技术受到了研究人员的广泛关注。在计算机视觉与人工智能技术的推动下,增强现实技术表现出了强劲的发展势头,无论是跟踪注册精度、显示设备性能,还是人机交互自然性上都有很大提高,但也可以看出,增强现实技术尚有许多问题有待解决。从跟踪注册技术上来说,目前的跟踪注册方法只能对场景中少量的信息加以利用,如特征点信息,这造成系统对环境的理解不完整;从显示技术上来说,能够为用户提供高沉没感的增强现实眼镜在体积和价格上还不能满足大众的需求;从交互方式上来说,更为自然的、支持多用户的增强现实交互技术仍有待研究。
虽然增强现实技术还有许多瓶颈,但大量的应用研究分析表明,它具有巨大的应用前景。在未来几年里,增强现实技术的应用,特别是在移动智能终端上的应用,将会大量涌现。虽然与头盔显示设备相比,移动设备沉没感不强,但其具有很高的普及性;同时,ARKit、ARCore开发平台的推出,从技术上实现了增强现实与智能移动设备的结合。在未来的发展中,更能发挥增强现实技术优势的智能穿戴设备将为人类创造更为真实的虚实融合世界,人们可以通过更自然的人机交互方式与系统进行交互。未来增强现实技术将在很大程度上改变人类生活,是科技发展的必然趋势。
基金项目:国家自然科学基金项目(61572479);国家重点研发计划项目(2016YFB001403);国家自然科学基金委员会与新加坡国家研究基金会合作研究资助项目(61661146002)
参考文献(略)
本文作者:王宇希,张凤军,刘越
作者简介:王宇希,中国科学院软件研究所发展研究部,博士,研究方向为增强现实、目标跟踪;张凤军(通信作者),中国科学院软件研究所发展研究部,研究员,研究方向为人机交互、软件工程。
☞【学界】OpenPV:中科院研究人员建立开源的平行视觉研究平台
☞【征稿通知】IEEE IV 2018“智能车辆中的平行视觉”研讨会
☞【学界】ParallelEye:面向交通视觉研究构建的大规模虚拟图像集
☞【CFP】Virtual Images for Visual Artificial Intelligence
☞【最详尽的GAN介绍】王飞跃等:生成式对抗网络 GAN 的研究进展与展望
☞【智能自动化学科前沿讲习班第1期】王飞跃教授:生成式对抗网络GAN的研究进展与展望
☞【智能自动化学科前沿讲习班第1期】王坤峰副研究员:GAN与平行视觉
☞【重磅】平行将成为一种常态:从SimGAN获得CVPR 2017最佳论文奖说起
☞【学界】伯克利发布世界最大自动驾驶数据库,是百度的800倍
☞【深度】伯克利发布目前最大规模、内容最具多样性的高质量标注公开驾驶数据集BDD100K