一人一档是人脸监控识别中一个终极核心技术,它是核心算法和大数据产生的结果。通过一人一档可以做很多事情,例如动态人脸识别、目标检索、目标轨迹、关系网络认可。
2018 年 3 月 31 日,由雷锋网主办的 AI 盛会——「2018 中国人工智能安防峰会」在深圳科兴科学园国际会议中心举行。
在上午的演讲环节,中科院生物识别与安全技术研究中心主任、中科奥森首席科学家李子青教授讲述了 AI+安防的痛点问题和未来发展,以及他们取得的三项技术新突破。
李子青在大会中指出,静态人脸识别技术研究目前已接近尾声,而动态人脸识别技术提升研究与应用正在如火如荼进行中,大数据是「AI+安防」的重要发展方向。他在演讲中点出了「AI+安防」的几个痛点:
深度学习需大数据进行有监督训练,人工标注费时费力;
深度学习算法性能进步速度放缓,正向天花板靠近;
从应用来看,动态识别的误报率太高,且生产环节大数据资源未充分利用;
从视觉数据源头来看,监控相机图像质量仍然受到暗光、强光和逆光的影响。
李子青强调,要利用生产环节的大数据进行自主学习,形成数据与 AI 引擎提升闭环,将动态人脸识别引擎性能提升到一个超高水平,满足实战需求;在此基础上,将跨时空的视频大数据整理聚类成一人一档 – 这也是大数据人员身份识别的一个终极核心技术,通过一人一档可以做很多事情,例如,跨时空目标检索、目标轨迹挖掘、关系网络分析等。
以下是李子青演讲实录,AI 科技评论做了不改变原意的编辑:
感谢主持人的介绍,刚才主持人说这是一次盛会,的确如此。这里有传统安防巨头企业、新兴 AI 企业,还有深圳本地的企业家以及一线公安干警。
传统企业中,像海康、大华、宇视、天地伟业等都是我的老朋友,阿里巴巴作为一个商业帝国也参与到本次大会,另外还有商汤、旷视、地平线等我的学术界同行,非常高兴有这样一次 AI+安防的盛会。
今天我要讲的题目是「AI+安防:创新解决当下,赋能未来」,核心是创新。
我今天讲 5 个方面:
1.安防应用和 AI 技术;
2.中科奥森的创新历程;
3.智能视觉安防产品;
4.AI+安防:痛点问题和未来发展;
5.中科奥森的技术新突破。
前面三部分大家可以忽略过去,可以玩手机、打瞌睡,后两部分大家可以醒过来看看。
安防应用、 AI 技术以及相关研究工作
安防主要包括两个大类:
第一是监控类,关注黑名单,这是今天在座的主要关注点;
第二是授权类,关注白名单,除了金融、自助应用外,安防也很关注的,比如说出入口管理等等。昨天我参加移动设备生物识别国家标准制定会议,与互联网身份认证相关,那个就属于授权类安防。
这里和 AI 相关的研究,从基础技术上来讲,涉及机器学习、计算机视觉、芯片等;从应用产品上来讲,包括智能安防、智能金融、智能交通、机器人等等。此外,大数据是很重要的部分,也是后面要讲的关注重点。
其实在十多年前安防中就已经引入了智能分析,并一直在不断进步,现在是深度学习所带来的第三次 AI 浪潮。我是这个过程的见证者和积极参与者。
我于 2000 年回国,在微软研究院研发了世界上第一个实时人脸识别系统。2004 年加入中科院就一直致力于人脸识别和智能视频的安防应用。我与深圳这边的安防还是非常有缘的,2005 年,我设计并实施了深圳口岸的出入境自助通关系统、后来又做了深圳海关的水客识别系统;另外,我还设计并实施了 2008 北京奥运的实名制人票核验系统、上海世博会的出入口安防管理。
从国家研究课题来讲,我负责了十一五、十二五国家科技支撑计划和十三五公共安全重大专项的人脸识别、视频分析和视频结构化的研发工作。
目前在实施的十三五这个重大项目,继续深化视频结构化技术,包括人脸结构化、身份特征、性别、年龄、种族等等;行人结构化描述,包括人体各个部位和携带物的描述;以及车辆结构化 – 这些是现在视频大数据中最关注的问题。
2009 年我提出了人脸识别物联网/云服务的概念,把视频监控人脸识别、移动人脸识别以及浏览器网络上传的人脸识别统一到统一的框架下,由后台的服务器来提供支撑。人脸识别云服务现在已经非常流行,在安防、金融、社保等行业都得到了非常广泛的应用。
2010 年我提出了智能视觉物联网的概念,是人脸识别云服务的进一步拓展。最底层是数据入口,由各类视觉传感器采集数据,通过互联网、电信网、公安内网等汇集到公安的数据平台,进行数据的图象汇聚和清洗,然后对视频数据进行智能分析,其中包括各种视频分析工具,最上层是应用业务,如人脸识别、视频研判。
智能视觉物联网在无锡公安市局实现了落地,这是国内首个市级的人脸识别与智能视频的安防应用。我们的成果由无锡市政府推荐选送到 2013 年的世界智慧城市博览会,并获得了大奖。
我们的创新对国际也产生了影响,美国国家标准技术研究院发布的数据库和和国防部的应用技术项目,其中近红外人脸识别是我的一个发明,这是世界上第一个能够把人脸识别技术变成产品的技术,国内很多厂家都在采用,特别是深圳的厂家;另外还有异质图像人脸识别。
2011 年,我受欧盟邀请,参加欧盟的第七框架研究计划,这里面有 12 支团队,我们是唯一的非欧团队。
这个项目的研究内容是生物特征识别中的假体攻击以及相应的对抗防范技术。之前的人脸识别研究主要关注准确率,但在授权类应用中,如果不能抵御假冒的生物特征的攻击,如人脸照片、视频,即使将准确率做到百分之百,也是白搭。所以从 2009 年开始,我们就开始了人脸识别的防伪技术研发,其成果我的另一个创新,多光谱人脸防伪技术,现在大家看到的双目人脸识别和活体防伪技术和设备,就是源自我这里。我们多光谱的双目深度学习识别系统完美解决 CCTV 去年 3.15 曝出的人脸识别安全漏洞。正是由于我们在这方面的独创工作,所以受邀参与欧盟的项目。
2012 年世界科学节顶级刊物《Science》对我进行了采访,介绍了我们在人脸识别、图象分析和视觉物联网方面的成就,并以此说明中国国力和创新能力迅速提升,在上述领域做到国际领先,并且获得了国际同行的好评。
下面说一说智能安防产品。
首先是动态人脸监控。静态人脸识别技术与应用研究现在已经到了尾声;动态人脸识别技术提升与应用正在如火如荼进行当中,后面会谈一下其中的痛点。
其他的典型产品包括授权类的自助设备和闸机通道的身份验证,现在已经在应用,未来会更加广泛。上周在河北省发布了税务自助办理系统,我们提供了其中自助机与通道闸机的身份识别技术和整体解决方案。此外还有访客系统、小区门禁、双目人脸识别与活体防伪模组和设备产品。
中科奥森团队有很多 No.1 的创新和发明,包括国家项目、论文发表、核心技术,我们设计并实施了世界上第一个实时人脸识别系统,世界上第一个大规模的生物识别自助通关系统,世界上第一个人脸识别门票核验系统,世界上第一个实用化人脸识别设备产品(近红外),双目人脸防伪设备(可见光+近红外),这些都是中科奥森的首创。
我们提出了世界上第一个人脸识别物联网/云服务,统一了 PC 端、手机端和视频监控的人脸识别,此外还提出并实施了智能视觉物联网。
昨天(4 月 30 号)我参加了一个中国国家标准的讨论,关于移动设备生物特征识别,中国的移动刷脸应用在世界上规模最大,我相信,通过我们的努力,中国国家标准一定会成为国际标准。
接下来谈安防、AI、大数据的问题。
首先从应用规模来看数据规模,我以一个辖区为例,假设有 1000 路视频,在深圳大概是一个村镇的规模,用来抓拍人像,与 20 万人的黑名单库做比对。假设每个摄像头每 5 秒抓拍一张人脸,该辖区每秒钟抓拍 200 张图像,每天产生 0.173 亿张抓拍人脸,跟 20 万人的库的比对次数是 0.173 亿*20 万,约 3.456 万亿次。业务上希望正确识别率不低于 90%。
现在用监控视频作动态人脸识别的痛点问题是,误报率太高,公安非常希望利用这一技术提升治安防控水平,但如果系统误报率太高,喊了太多「狼来了」,则用户最终不得不放弃使用。
再讲讲 AI。现在我们身处 AI 的第三次浪潮。
我 1988 年去英国留学,第一站就是爱丁堡大学的 AI 系,碰上了 AI 第二次热潮,当时的主体思想基于符号学派,那时神经网络也存在,但它处于相对弱势,其实二者在当时都不 work。经过几个月时间的研究,我拒绝了符号主义方法,拥抱了联结主义,也就是神经网络,我从统计学和优化理论入手,构造能量函数,采用自下而上的分析方法,通过数据分析和机器学习,寻求最优解,一直到今天。
现在 AI 第三次浪潮是由深度学习引发的。深度学习有三个非常重要的要素:第一是深层神经网络,神经网络并不是一个新东西,只是现在做得更深,能解决更复杂的问题;第二是有监督的学习,大数据训练;第三是高性能并行计算。
去年 12 月份财新网有一个短视频,李开复谈 AI 和大数据(http://cj.sina.com.cn/articles/view/1898901183/v712eeebf019001w53)。财新得出的结论是:具有一定规模和质量的数据集成为人工智能行业发展的一大制约。
搜狗 CTO 杨洪涛说,还没有足够的数据去解决问题。我觉得他应该是说还没有足够的标注数据去解决问题。生产环节的数据太多了。
开复认为,人工标注是不能从根本上解决问题的,现在我们做深度引擎开发都遇到了这样的问题。必须在真实运用场景里得到闭环回馈的标注,才能真正解决大数据的标注问题,从而推动 AI 向更高层次发展。
这就引出了我们技术和应用的痛点。
有监督的深度学习需要大数据训练。但是人工标注费时费力,能用于标注的人力、财力和时间资源都有限。虽然有监督的深度学习还有一定的发展空间,通过提升算法、改进网络架构、增大标注数据等手段,但它的提升空间不会巨大,我认为,与 2014 年前后的迅猛发展相比,它的发展已经放缓,在向天花板靠近。
从应用来讲,刚才我说到动态识别的误报率太高,没有将大数据资源充分利用起来;核心引擎的提升需要标注数据,而数据的标注、加工需要靠人工进行。这是 AI 技术和应用的一个发展瓶颈。
所以,我们必须实现开复所说的,形成应用场景的数据闭环,能够利用生产环节的大数据进行自主学习。
另一方面,从数据源头来看,视觉传感器输出的图像质量,仍然受到暗光、强光和逆光的影响,导致人脸识别性能的进一步下降,特别是在室外、动态场景下。虽然现在有宽动态、星光级摄像机,但这仍然是一个很严重的问题。
与视觉相关的一个趋势就是 3D 传感器的发展,从 Kinect 到 iPhone X 到 Lida。三维传感器能提供深度信息,是对二维信息的补充,能够提升 AI 应用的能力和水平。
技术新突破与总结
最后简单介绍中科奥森的三个最新技术突破:
1.大数据闭环自主学习;
2.从大数据到一人一档;
3.新一代智能相机。
这是三个非常原创、非常独特、门槛非常高、并且有巨大价值的技术突破。
首先看大数据闭环自主学习。我们有前端数据获取,抓取数据之后送到后台大数据存储中心,在后台我们还有核心引擎,当然这个核心引擎可能也在前端,另外训练一定是在后台的。
大家听过 AlphaGo,早期他们用大量的标注数据,用各种各样的棋局进行训练,打败了李世石、柯洁。2017 下半年,他们推出了 Alpha(Go) Zero 采用零标注数据,仅利用走棋和胜负判断规则,进行自主强化学习。AlphaZero 在训练第 3 天打败李世石,第 21 天打败柯洁,第 40 天打败所有人类。后来他们不仅用这一技术下围棋,还下其它的棋以及玩游戏,也取得了很大成功。
注意到 AlphaZero 的自主强化学习是在有限状态空间进行:19×19 的棋盘,有黑白两子,可能的棋局数量巨大,但却是有限的,走棋的规则、最终胜负判断都是明确规定的。所以,虽然它没有用任何标注的棋局,但不能说是非监督学习,可以说它是弱监督学习。我们可以借鉴,但不能直接拿来用,因为我们做视觉感知,其中的引擎学习是在无限状态空间中的过程。
我们的做法是用 AlphaOne 技术,把后台大数据与核心引擎的再学习打通,实现开复老师说的闭环。之所以称为 AlphaOne,是指我们有一个深度网络基础引擎,通过可用的标注数据,采用深度学习算法,训练而成。AlphaOne 自主学习在此基础上进行。
对比有监督深度学习和半监督自主学习,两者对标注数据要求是一样的。从模型的训练方式看,前者是离线训练,后者是利用生产数据在线主动学习。引擎性能方面,如果通过有监督深度学习训练的模型性能为 X,通过半监督自主学习的模型在性能上可超过 X 100 倍。
下面讲讲第二个突破,一人一档。安防视频大数据系统中,有路人库(抓拍)和名单库。路人库是增量存储的,前面分析了数据规模,一个月累积可能百亿级甚至千亿级规模,名单库中可能有 20 万人或更多(比如包括常住人口)。
假设辖区常来常往 100 万人,所谓的一人一档就是要把路人库(包括该辖区内 100 万人、从外地过来的人、以及被抓拍的名单库人员)根据人员 ID 进行聚类,梳理成一人一档。一人一档建立在识别引擎之上,我认为它是人脸监控识别的一个终极核心技术,它是识别引擎、大数据和自主学习共同产生的结果。
第三个突破是一个发明专利技术,新一代智能视觉相机,单目全光照全输出,解决目前智能相机的缺陷,提供更丰富、更可靠的图像视频数据。它是个单目摄像机,能输出 RGB、NIR、3D(深度),或这三种的任意组合 RGB+NIR、RGB+3D 和 RGB+NIR +3D,所以叫全输出。并且它能适应全光照,从暗光到强光再到强逆光都可以拍得很清楚。
如果说我 10 多年前创新近红外人脸识别以及最近创新的双目防伪摄像头能够被友商仿制,这个单目全光照全输出相机是很难仿制的。
最后再总结一下我的主题,我要重点强调的是中科奥森能力,以及最新的三个创新,即:新一代智能视觉传感器,单目全光照全输出,大数据自主学习突破深度学习瓶颈,一人一档安防大数据终极核心技术。
在座的安防企业和 AI 新锐有不少交叉,现在如果不做 AI,人都不好意思说自己是安防的。安防跟 AI,特别是深度学习,是深度融合的。新锐企业算法技术做的很好,但如果做纯算法肯定没有出路,所以像商汤、旷视这些企业都在做落地应用,与安防企业竞争,做业绩。我觉得大家各有各的优势。传统安防,像海康、大华这种巨头在行业深耕多年,有强大的市场优势,销售渠道健全,落地应用做得非常好。他们既有竞争,也有勾搭合作。希望传统安防企业和新锐 AI 企业能有很好的互动。
对了,我们招人了,了解一下?
4 月 AI 求职季
8 大明星企业
10 场分享盛宴
20 小时独门秘籍
4.10-4.19,我们准时相约!
┏(^0^)┛欢迎分享,明天见!