3D结构光在安防领域应用,需要在同一镜头内识别多张人脸,三维数据的采集、训练难度都相对加大,对准确率的要求也更高。这些都是安防与消费领域不同、更需要攻克的问题。
作者 | 张瑞
2017年,苹果将3D结构光带到了手机领域,从此三维人脸识别便逐渐成为消费级市场颇为主流的识别方案。
不过,在行业的目光多停留在3D结构光的消费级应用时,却有一家AI创企的卢深视,开始着眼于安防领域。
安防领域的三维人脸识别,与消费领域面临的问题并不相同。
消费终端中的三维人脸识别,在使用期间往往只针对一个用户的人脸进行反复检测与识别,因此是高频的1:1比对,而每次比对过程中,算法也可对真人的面部特征进行多次提取,实现真实场景数据闭环回馈,利用生产环节的大数据进行半监督自主学习,提升性能。
而在安防这类公共场景中,单个用户在区域摄像头面前出现的频次相对有限,且多数用户的人脸底库数据为二维照片,致使公共摄像头难以对单个人脸的特征进行更全面地提取和二次训练,性能提升受限。
与此同时,从使用者层面讲,消费级市场对人脸识别的容错率相对较高,而安防客户对静态比对的准确度要求,几乎不允许出任何差错,这也让许多专注视觉的企业望而却步。
即便面临着行业的种种挑战,的卢深视仍决定专攻这些难点,打开公共安全三维人脸的市场。
苹果选择了手机
的卢深视选择了安防
3D结构光,产品化的鼻祖可追溯到微软。
2010年,微软将PrimeSense技术最先应用在体感游戏设备Kinec上,从而催生出一批消费级三维深度相机,也引发了一系列学术上的研究热潮。
但事实上,体感游戏这一市场并不成熟,体验差,内容不足等问题,导致在体感游戏后,3D结构光的应用陷入一个僵局。
而正当3D结构光折戟体感游戏市场时,苹果开始布局,于2013年收购了PrimeSense,以及多家产业链上下游企业。
苹果的这一举动,也让业内人士看到了3D结构光应用的更多可能性。
师从高文院士,计算机视觉出身的户磊,以及与被苹果收购的动态捕捉技术公司faceshift创始人来自同一实验室、后来成为的卢深视技术顾问的张举勇,都敏感的观察到了这一信号,他们开始思考着3D结构光在其他场景落地的前景。
在对市场有足够的了解后,户磊认为体感游戏等并不成熟,而应用到手机上则存在模型压缩等小型化的困难。
当时,户磊和大多数厂家都没有预料到,苹果在收购PrimeSense 4年后的2017年,迅速的就将结构光带到了手机上。但此时的户磊,也敏锐的将目光投放到了安防领域。
此时的安防领域,所采用的基本是二维人脸识别技术和方案,易受到光照、遮挡等因素影响,且二维人脸识别的防作伪能力较弱,因此在对安全性要求较高的领域,对三维人脸的需要呼之欲出。
但想在B端安防领域的落地,也并不容易。
相对于消费领域,安防领域需要在一个镜头内识别多张人脸,逐一进行辨别,算法的难度以及三维数据的采集、训练难度都相对加大。
另外,安防领域对准确率的要求更高,要求误识率更低,不容有失,这也对技术提出了更高的要求。
有契机,又有挑战,户磊决定最终在行业还比较空白时,专攻安防这一领域。于是在2015年,户磊和他的团队成立了的卢深视,开始正式探索三维人脸的市场。
“为什么苹果选择了在手机上做3D结构光,而我们关注安防边检领域呢?”
“其实市场的孕育和市场窗口的出现,是跟实际相关的。我们觉得当时除了安防也没有更合适的场景。在PrimeSense之后,国内厂商也有跟随去做体感游戏以及电影动画特效的,但现在能看到这个市场并不成熟。而安防领域则有着强需求。”户磊说道。
在三维人脸识别最初应用的时候,两家企业选择了两个不同的方向,最终都成功打开了市场。
3D结构光技术
切入安防高端市场
但当新技术在初初落地之时,总会有关于技术路线之争。
而对于技术路线的选择,计算机视觉出身的户磊,显然更有自己的见解。
目前较为流行的说法是TOF在识别精度和远距离识别上都更有优势。而实际上,户磊认为,这些说法并不准确。
“这种说法太偏实验室了”,户磊说道。
从纯理论的角度来说,TOF确实在精度、远距离识别、抗干扰性具有更大潜能,但目前的测试和实际的应用中,TOF还远远达不到,实际来说,结构光在应用上相对更优。
就精度来说,目前结构光是现在唯一能够在近距离达到毫米级的,毫米级的分辨率是人脸识别的一个重要因素,否则脸上的特征就会被抹掉。
TOF另外一个常被提及的点,就是远距离下识别深度和精度比较稳定。虽然理论上如此,但实际上还不能达到。并且,运动物体,也会造成TOF的识别深度图质量严重下降。
另外,对于市场上一些已经宣称实现了三维人脸识别的产品,户磊表示,这还并不是真正的三维人脸技术。
“目前,市面上很多都是假三维,即用二维人脸进行识别,然后再进行活体检测。实际来说,这并不是真正的三维技术,它更像是一个二维人脸到三维的过渡产品。在平衡成本和检测效率的情况下,它确实具有可用性,不过,这不是真正的三维人脸,也不同于我们所做的三维人脸。”户磊说道。
对于技术有较为成熟的理解,的卢深视也在很多项目的实施中,确实展示出三维人脸的应用前景。
的卢深视在成立之初,就接到了某边疆省份三维人像卡口项目。
对于这一项目,户磊认为,是市场对于人脸识别的高要求找到了的卢深视。
在某边疆省份公安厅的反恐项目中,的卢深视作为三维核心技术及平台产品提供商,共建了全国首个“三维人像数据库”。
“维稳很难有一个比较明确的名单,需要进行人群甚至全人口库的比对,因此,对识别精度要求也很高。”
户磊介绍道,项目自2016年在上线至今,总通行人数超过百亿。采集、存储、布控的三维人脸库在千万级规模,产生百万级别次有效报警,并且在空间上布及南北、各边境关卡,全天候信息获取,经受了各种复杂现场状况和极端恶劣天气的考验。
更典型的是国内某大桥的通关项目。
该大桥是国家重点经济区城市群的重要连接桥梁。城市之间的通行,如何让人、车实现高效流通,成为一个关键问题。
由于地理位置所限,光环境非常复杂。尤其正午阳光直射,对识别提出了更高的要求,这就带来了一个天然门槛。
被问及如何处理复杂光线,户磊不无兴奋的介绍道:
“这个其实还蛮有趣的,因为本身我们会做相机,就有涉及到光学的部分。有专门负责光学设计的同事,就把当时一些有趣的想法,应用到这个项目上。
举个例子,针对逆光或者是侧光的情况,对识别影响比较大。很多通行关口,会采用中午的时候关闭一些通行闸机来解决这个问题。但这对通行效率造成影响,无法保证实际使用体验,那么当时我们就采用了像偏振原理‘直接过滤直射光线’,这样来避免强光。”
这些细节的打磨,是的卢成功赢得项目的关键。
行业分工尚未形成
主打“开放的合作”
当描述一个新兴行业的时候,常常会提到竞争和挑战。
对此,户磊认为,三维人脸识别技术和应用还并不算很成熟,行业分工也还未形成。
和二维人脸在落地过程中遇到的一个问题一样,人脸识别的产业链并不完善。
户磊也提到,如摄像机中需要用到的3D传感器,的卢深视找了很多厂家,都不满意,最终还是决定自己来做。
“你可以去类比一下,三维人脸的传感器,可能相当于比如说二、三十年前2D相机的状态,就是非常的初级的一个状态。我们其实最早的时候没有打算一定要去做相机,但后面发现你不去做就无法满足业务场景应用的需求,实际上也等不来。”
另一个问题,在三维人脸数据的处理上。
与二维人脸不同,三维人脸需要处理的是点云数据。而目前主要应用的深度学习神经网络主要针对的是较为规整的平面图像类数据。但点云数据,是分散在一个三维空间中的不规整数据,如何能够用深度学习的方法处理这些点云数据,也是目前的一个难点。
第三个问题,则是三维人脸的研究数据严重不足。
大规模的深度神经网络训练,离不开充足的数据进行训练。相对于社交网络上传播的很多二维人脸数据,三维人脸数据的获取存在天然门槛。如果没有实战的场景不断积累足够的数据,产品化就会很难。“没有充足的数据,其实是根本没法去做的。”
因而,对于这个方兴未艾的领域而言,产业格局尚未形成,刚刚呈现出清晰的曙光。各方所做的尝试和努力,远大于竞争。
户磊的也认为,在这样的行业背景下,的卢深视需要进行“开放的合作”。
“3D人脸识别的产业链,可大致分为器件、模组、系统和方案设计厂商、算法厂商,及产品和应用厂商等环节。其实现在还没有形成一个非常固定的行业,或者说产业上的分工其实还模糊。举个例子,做相机方案的厂商,也有涉及深度计算的算法,所以也可能会进一步做上层算法。做算法厂商会觉得,我也可以往上,做整个相机系统的设计。这也就是,为什么我认为要有一个开放合作关系。”
目前,二维人脸识别正逐步落地、可用性不断提高,但复杂光线、遮挡等问题,依然有待更有效的解决。与此同时,行人再识别、三维人脸等技术也在慢慢兴起,共同解决人脸识别的问题。
而作为专注三维人脸的厂商,户磊认为,短期内,二维人脸识别还要进行更多技术打磨。这其中,3D人脸,还拥有很大的机会。
“我们也很开心的是看到这两年的学术的论文上,3D图像正在越来越被大家所重视。我们也在做一些人体测量与动作分析的研究,希望这些东西结合起来,一起解决人的身份识别这个问题。
对于我们来说,我们坚持认为的是3D未来将来会普遍应用,会在广泛的场景中取代二维的人脸识别,更好的解决准确识别人身份的问题。”
推荐阅读