5 月 25 - 27 日,在杭州,上千名志愿者、出品人完成了一场为年青人举办的大会。按照发起人阿里巴巴技术委员会主席王坚的说法,2050 是一个年份,不太近,充满想象,也不太远,我们都能活着看到。
在第一次听到「让世界离年青人更近,让年青人离世界更近」这样的办会理念时,我们想起机器之心用前沿科技内容聚合的全球 AI 青年,从在象牙塔里研究技术到毕业后面临创业、择业的选项,他们不仅应该关心技术走向,也需要了解因为这些技术的创新促成了产业正在发生的商业变革。
而那些被我们报道过的 AI 创业公司,大多恰好处于成长周期的少年或是青年阶段,如何生存和发展也同样是他们心头大事。
在 2050 大会上,机器之心发起了一场以《AI 技术公司的活法和前景是什么》为主题的论坛,云从科技、体素科技、深瞐科技、声智科技、一知智能和 Udacity 分别谈了谈 AI 技术如何才能「落地为安」。以下为第五支演讲视频——深瞐科技创始人王建辉《超 3 万玩家挤在安防领域,AI 技术公司会是收割新贵吗?》:
要点速览:
我们公司在 2012 年就已经提出了车脸识别的概念,并完成了相应的算法和产品研发。 2015 年,我们在车脸识别算法中融入了行人和人脸及物体识别,形成我们现在的视频结构化系统,同时我们也会研发基于低功耗高性能的视频结构化的硬件产品,把它应用到边缘计算或云计算。
根据 IHS Markit 的统计,2017 年 10 月份的时候,中国在公共领域是有 1.76 亿个摄像头,这些摄像头每秒钟大概能产生 66TB 的数据,而且摄像头的数量还在不断地扩大,两年以后,也就是 2020 年左右,摄像头的数量大概会增加到 6.26 亿个。
如果将来再继续优化我们的视频结构化算法,也就意味着解码会成为我们整个系统的性能瓶颈,这也是为什么我们需要去往前端和局域端去布局。
深瞐的视频结构化系统的优势主要有四个方面:一是公司 2012 年就开始进行车辆数据标注的工作,积累了大量数据;二是高效率的算法;三是和行业内的各大公司不断合作;四是公司的算法可以在各种各样的硬件上进行适配和集成,包括像海思新出的 359A、英伟达 TS 2、比特大陆的 BM1680。
王建辉:
我们公司成立的时间比较早,但在行业里仍然算是一个比较小的公司,我们必须要考虑,怎么和行业内的公司来合作?
介绍我们公司一般会从「瞐」字开始,很多人一开始看到我们公司的名字,都读成「深晶」,但是我们仔细看一下,这个是字它是由三个「目」字组成,它不是三个「日」,这个字读瞐(mo),它的意思是美丽深邃的眼睛。
从这两个字里可以看出来,我们公司主要是做人工智能技术加计算机视觉的。「瞐」字里三个「目」,它其实反映的是第三只眼,也表明我们想要做守护人类的第三只眼,安防属于人类的第三只眼睛,它会去守护人的安全。
我们公司在 2012 年就已经提出了车脸识别的概念,并完成了相应的算法和产品研发。 2015 年,我们在车脸识别算法中融入了行人和人脸及物体识别,形成我们现在的视频结构化系统,同时我们也会研发基于低功耗高性能的视频结构化的硬件产品,把它应用到边缘计算或云计算。我们公司的产品跟安防大数据相关,非常贴近实战应用,主要跟政府机关、刑侦、海关、边警以及煤炭生产等领域有合作。
我先介绍一下安防市场,安防市场现在是一个不断扩大的市场。根据 IHS Markit 的统计,2017 年 10 月份的时候,中国在公共领域是有 1.76 亿个摄像头,这些摄像头每秒钟大概能产生 66TB 的数据,而且摄像头的数量还在不断地扩大,两年以后,也就是 2020 年左右,摄像头的数量大概会增加到 6.26 亿个。
但在安防领域,这些摄像头其实在前期只能起到一些威慑和取证的作用,非常不智能,它不能提前预警或在事中进行分析。另一方面,安防领域对计算机视觉有非常强烈的需求,因为所有计算机视觉的图像都需要进行处理。
为了解决安防摄像头不够智能的状况,我们研发的是一个视频结构化的系统,这个系统它能更高效更准确地检测出行人和车辆。大家可以看到这个视频里面,在这个摄像头前经过的所有行人和车辆,我们都会进行检测、跟踪、去重、择优,然后我们再针对经过的每一个目标提取一张图片,去识别它的详细属性。比如非机动车我们主要关注的是行人的属性,包括人的颜色、衣服款式之类的信息,机动车则更关注车的属性,比如说品牌、型号、年款、颜色还有车牌号等。
这是我们视频结构化的一个层次组成关系,总的来说,它是一个以搭建了四级的视频结构化处理系统。
在最底层,我们要去收集各种各样的视频和图像数据,比如从加油站的视频里,停车场、卡扣甚至车载系统、手持系统和道路监控这些设备里。首先,我们会在这些数据里检测出行人和车辆,也已经加入了人脸识别功能。我们会针对行人和车辆去识别他们的二级属性,只有把这些文本化的结构信息全部提取出来之后,我们才能实现一些以图搜图、数据挖掘、事件预警等功能。
我们针对车辆的二级结构化,首先是在车的颜色上,另外是车的号牌,可能大家会觉得车牌的识别现在已经比较成熟了,但其实根据我们实际场景中的应用来看,现在光车牌识别这样一个技术都还没有做得非常精确。
我们在 2018 年 2 月份跟上海交管局有一次测试。当时,上海交管局收集了大概 2000 万张车辆的数据,需要把车辆的车牌号准确地识别出来,所以他们进行了一次招标,包括安防的行业巨头几乎都去参加测试。
测试要求大家在一个星期内把这 2000 万张图片全部识别出来,然后统计正确率,当时我们公司花了 46 个小时,识别准确率在白天统计是 99.33%,夜晚是 98.7%。而很多公司在一个星期以内并没有把这 2000 万张图片全部跑完,也有一些企业能跑完但识别精度非常低,大概只有 87% 左右这样一个量级,中间会有非常大的差距。
不过,即使我们做到白天 99.33% 这样一个准确率,能满足大部分应用需求,但还没有达到一个极致。
品牌型号是我们现在做的最好的一块。
目前,中国在路面上行驶的车辆大概是有 28000 多种,这 28000 多种车,有的外观是一模一样,比如像宝马 520 的 2014 款可能和宝马 520 的 2015 款的外观一模一样,把这些车的区间进行合并,最终剩下外观上有差别、从车头上看有差别的车大概是 5580 多种,从车的尾部看过去,存在差别的大概是 3500 多种。
我们可以针对这些车进行全系列的识别,能区分像宝马 320 的 2014 款,跟宝马 520 的 2015 款这些详细属性。其实做起来会非常困难,数据标注也是非常大的工作。我不知道在座的各位有多少人能认识超过 50 种以上的车,你要标注 5500 多种,甚至是 28000 多种车,工作量非常大。
另外这项车牌还有品牌型号跟车身颜色,他们都是属于车固有的属性,如果我们想要区分出套牌车——就是说如果我们两个人都是宝马 520 的 2015 款,我去找一个一模一样的车,然后我去套用它的车牌,做一个它的牌照挂在我的车上,我怎么区分这样情况?
我们需要识别车本身更详细的属性,比如说我们最后要去识别这个车有几个年检标,它的年检标是怎么排列的,它的车上有没有挂坠,前面有没有纸巾、有没有摆件,它有没有备胎、有没有行李架,车上有没有撞损痕等信息,都是需要我们识别的。同时我们还要识别车里驾驶人和副驾驶的情况,包括他们的人脸,驾驶员有没有违法驾驶行为,比如说开车打电话,或者是没有系安全带等。
针对人的话,我们也要识别这个人的详细属性,比如说我们要去识别这个人的性别和年龄,但是年龄这一块我们不会去看他具体多少岁,现在主要是区分这个人属于小孩还是青年、中年、老年。另我们还需要识别行人的样貌属性,比如他的发型、他的肤色、他有没有胡须,还有着装,包括他上下身衣服的颜色和款式,比如我们今天穿的是一个白颜色的衣服、蓝色裤子,还有它的纹理等,还有他的同行人,有没有佩戴眼镜、有没有带口罩、有没有戴帽子,包括他的随身物品,他有没有打雨伞、抱小孩,他有没有拉行李厢、有没有背包、有没有拎包等。
这些都是为了去详细区分一个人,以方便进行结构化的搜索。同时我们会把一些人脸进行抓拍,然后把人脸识别的属性,全部都加到这个结构化的系统里面去。
刚才那些是我们算法层面的一些工作,这些算法上的工作它需要有一些硬件平台去承载。
目前,公司承载算法的硬件平台可以分为四类,它基本涵盖了安防行业里面的四大平台。最开始我们公司所有的算法都是运行在云端,也就是智慧云服务平台,在这个平台上,用一张 GPU 的卡,我们效率会做的非常非常高,GTX 1080ti 的卡,我们能做到 30 路 1080P 视频的解码加视频结构化的分析,而 Tesla P4 是能做到 24 路。
现在我们也针对一个个非常大体量的城市级别应用,把云服务平台缩减下来,然后做成了智慧终端服务平台,在我们内部也叫轻量级结构化平台,这个平台主要是面向小区、医院、商场,集中于几十路上百路这样一个场景的应用。
这里面也会用到 GPU 进行计算,GPU 和云端差不太多,再往前扩展,就是我们要做的智慧 NVR 系列或者智慧 NVS 嵌入式或者预装的计算。在这里面,我们主要采用海思的 359A,或是英伟达的 TX 2 这些芯片进行解码和分析,这个地方的解码和分析,我们需要去综合考虑它的性能,因为云端计算有个非常大的问题,就是你所有的数据都要上传到云端去。
但因为视频都是经过视频编码的,不管是 H.264 还是 H.265,如果在云端针对这些编码的视频进行解码,其实需要消耗非常大的计算能力。作为我们的算法和视频解码的复杂度来对比,现在是视频解码的计算量和我们整个二级属性分析的计算量是基本持平的。如果将来再继续优化我们的视频结构化算法,也就意味着解码的会成为我们整个系统的性能瓶颈,这也是为什么我们需要去往前端和局域端去布局。
只有我们在前端才可以在解码之前就对视频进行分析,对它进行结构化抓拍,而往回传过来的都是去除之后非常小量的一些图像数据。智慧 NVR、NVS 功能也比较类似。这些设备和算法,可以应用的范围会比较广,比如智慧警务工作站,或者是医院、商场、停车场、小区和学校等场景。
接下来讲讲基于这些技术,我们在应用层面进行的尝试和探索。
视频结构化数据最简单的一个应用是在假套无牌车的识别上,我们可以把识别出车的详细品牌、型号和年款信息,如果把这个数据和车管所车牌信息去进行碰撞的话,我们能发现这辆车,它是一个假牌车还是一个套牌车,或者是一个什么类型的行为。
我们去年和西安交管所的合作,经历了一个案例,西安有一辆出租车的牌照被套牌了,大概有六辆出租车用的是同一个牌照在路面上跑,当时我们根据视频结构化,能把这个以前不太可能发现的违法行为揪出来,以前要在两辆车等同一个红绿灯的时候,才能识别发现。
用到刑侦破案里面的时候,我们可以去快速复现出一辆车的逃窜轨迹,比如说像蓝色的路径,就是一辆车它在整个城市里面的行驶的一个轨迹,以前破案的时候,需要警察去不断地看大量监控录像,通过看车来判断可能逃窜的下一个轨迹是什么,这时候需要消耗大量警力和人力,而且效率非常慢,以前涉车案件最大问题就是,当我发现嫌疑车辆的逃窜轨迹,嫌疑车辆已经不知道逃窜到哪里去了。
我们还可以根据车辆的行驶轨迹去挖掘出它的同行车辆。为什么要挖掘同行车辆呢?这里面涉及到刑侦的两个问题,一个问题就是同伙作案,如果有一辆嫌疑车我们被抓到了,那我们可以寻找他的另外一位同伙,甚至如果我们发现有犯罪史或者是有涉毒的人员,多辆有犯罪史的人的车辆,他们长时间并轨的话,我们可以预警,他们是不是在预谋犯罪行为。
这也有一个案例。2015 年在浙江桐乡有一个入室盗窃的案件,入室盗窃的嫌疑人非常狡猾,他在犯罪头一天踩点的时候,用的是一个车牌号牌,在犯罪当天,他又换了一个牌照,第二天逃窜的时候他又换了一个牌照。像这种情况,根据传统的以车牌为线索去追踪的话,基本上是不可能实现的,但我们的系统其实是抛开车牌的信息,以车本身的特性去进行追踪。
除刑侦以外,我们也探索了一些新的应用领域。比如,我们在往智慧园区方向去发展。具体来说,把智慧园区的主要出入口、园区内部摄像头全联网的话,我们可以对人员和车辆打标签,比如这个人是一个有登记且常驻的车辆,非登记但是常驻人员,包括有犯罪前科的,有吸毒史的,还有上访的等,据此划出重点人群去统计他们的日常生活规律,然后根据这些日常生活规律去发现它是不是有异常,或者是有意地躲避摄像头等细节,这样也可以给一些政府工作和行政工作提供犯罪预警,由事后分析转向事前预防和事中报警,并且可以对陌生人进行合理管控。
我们还会给城市里的人车建立一个人车动态档案。这个人车动态档案是以机动车为主体,可以把人的手机信息、机动车信息结合起来,因为我们发现每辆车除了有一个个人属性之外,它其实还有一个社会属性,车辆的个人属性就包括这个车主是在哪里上班,家住在哪里。每一个车的品牌可能还代表着一个人的性格、消费能力、经济能力。车辆的社会属性主要体现在,比如说大货车它其实是反映了一个城市的外向型经济水平,杭州和上海之间的大货车频繁,说明这两个城市之间的经济联系会比较紧密,而小火车呢代表是城市内部的运输水平,他反映的是城市内部经济的活力,大客车可能代表的是旅游出行情况,小客车代表的短途消费,而渣土车、混凝土、搅拌车跟水吊车,表示的则是一个城市的基建热度。
如果我们把行人和人进行关联之后,我们可以知道一辆车只要出门并经过摄像头了,车在整个过程中发生什么变化,比如是不是新添了撞损痕,新增了几个年检标或者开车的人员发生了变化。根据这些统计,可以给保险公司提供一个参考,也能把这个城市里面的出租车、黑车、网约车等车辆进行分门别类的管理。同时它可能对一些可疑的生活规律,比如说走私、贩毒等相关行为分析出来,进行违法犯罪倾向性的预测和车辆行驶的安全性预测。
事实上,在整个是视频结构化系统里,我们的核心优势可以归结为四点。
一是我们很早就开始标注的数据。2012 年开始做车辆大数据以来,我们一直在进行车辆相关数据的标注,这些数据其实也非常难标,因为我刚才说到了中国可能有 28000 多种车,每年大概会有 400 多种车型增加,新增的车型可能跟已有的 28000 多种车型外观上还长得比较像,那标注人员怎么收集新上市的车辆,而且跟已有的数据进行区分,这个工作量其实非常大。而且这个标注的工作很难以外包、众包的形式完成,因为它需要在车辆识别领域非常专注的人员来做。同样,由此也形成了我们数据标注的优势,并转化为我们的数据优势。
第二就是基于已标注的数据库,我们做了一些高效的算法。这主要体现在我们会用相对简单的模型达到复杂模型的精度,因为目前深度学习的共识,只要你的模型足够复杂,你的精度是能达到足够高的,但在实际运用过程中,它除了对精度有要求,同时对算法效率有非常高的要求。
第三就是我们的视频结构化系统已经跟行业内主要公司都有合作。目前我们合作的安防上市公司大概是有 20 多家,还有 200 多家不同领域的大客户。2017 年 10 月份的深圳安防展上,1 号馆里展示的有视频结构化技术的公司,一共是 13 家,其中有 7 家的 SDK 是我们公司提供的。而且这个数字还在变大,目前以这种方式合作的已经达到 9 到 10 家公司。
最后就是我们的算法会在各种各样的智能硬件上落地。比如说会在海思新出的 359A,英伟达 TS 2,比特大陆的 BM1680 等硬件上做集成,这样我们的算法跟硬件是剥离开的,将来您不管采用什么样的算法,我们公司都可以去做集成。
回到最开始的主题,我们这样的一个新兴公司,怎样去和安防里面 3 万多家公司共存和竞争,最重要的办法也是我们目前在做的就是不断寻求合作。
因为目前我们能看到的趋势是安防在泛安防化,安防市场容量其实在不断扩大,它已经开始慢慢地跳脱出传统安防里给公安破案使用,上升到城市管理以及智慧物联网这样的区域。
刚才也讲过,将来的摄像头会增加到 6.26 亿,也同样指明这个市场还在不断扩大,我们用我们的算法和数据能力去跟 3 万家公司合作,把市场变的更大,蛋糕变大了各家都能得到其中的利益。
另外就是云边结合,刚才温总(云从科技联合创始人温浩)也讲到了,就是说将来的传输带宽和视频解码能力会成为云服务端计算的性能瓶颈,也会成为智慧视频分析大规模应用的一个障碍,而且现在的边缘端计算能力能够满足智慧视频分析的计算需求才能达到实时分析的性能,所以未来智慧城市管理和智慧视频分析的趋势会是分布式计算、多节点存储、精准化目标提取、结构化数据传输跟前后端融合。
推荐阅读