澎思科技首席科学家申省梅：视频图像智能化，打造完善有效的智慧安防局面

2019 年 11 月 7 日 AI科技评论

作者 | Camel

编辑 | 唐里

申省梅教授是澎思科技首席科学家、新加坡研究院院长。她长期致力于监控与安全、智慧城市、自动驾驶、智能机器人以及AI 工厂自动化解决方案等领域的相关技术的开发部署和落地。

在10月中旬举办的 CNCC 2019 大会上，申省梅教授曾组织了「计算机视觉技术赋能智慧城市」的技术论坛，其中包括西湖大学李子青教授等人皆作为演讲嘉宾，分享他们的研究内容。

申省梅教授作为主席兼演讲嘉宾，带来了主题为《视频图像智能化助力智慧安防建设》的演讲，她认为当前由于巨量摄像头的存在并不断生产出海量的监控视频，如果想要更好地利用、存储和检索视频图像，必须把视频图像智能化，将视频结构化和智能压缩，只有这样才能做到事前预警、事中处置、事后分析。

个人简介：申省梅，澎思科技（PENSEES）首席科学家、新加坡研究院院长，前松下新加坡研究院副院长。作为计算机视觉与深度学习领域顶级科学家，领导超40人的算法研究团队，获得十余项计算机视觉领域国际顶级竞赛冠军，累计专利300余项，致力于监控与安全、智慧城市、自动驾驶、智能机器人以及AI 工厂自动化解决方案等领域的相关技术的开发部署和落地。曾联合新加坡国立大学LV组参加PASCAL VOC（视觉物体分类）连续三年获奖，在美国国家技术标准局（NIST）主办的非受限条件下人脸识别竞赛IJB-A获得了人脸验证（verification）与人脸辨认（identification）的双项冠军，在微软百万名人识别竞赛MS-Cele-1M人脸挑战赛获双项冠军。

以下为申省梅教授演讲全文，AI 科技评论进行了不改变原意的编辑。

申省梅：

视频图像是从摄像头而来，就像我们的眼睛，我们看到了东西，但如果我们没有大脑来分析，图像就等于是没有意义的东西。

智慧城市包含着方方面面，从最近的落地来看，智慧安防、智慧交通、智慧社区远远走在了前面。那视频图像智能化能如何助力于智慧安防建设？

纵观整个安防行业的发展历程，AI的发挥空间还有很多。我相信大家也熟悉整个安防行业的发展，在座年轻人可能不太清楚，最早监控用的都是模拟摄像头，在中国模拟摄像头可能都不见了，但在其它国家还在大量地被使用。下一个阶段，当数字相机出现以后，就出现了DVR；接着网络监控阶段出现了，那时候我们就叫NVR+网络软件数字相机；今天我们看到的高清摄像头、以及智能监控已经出现在各个应用场景中了。

据英伟达预测，到2020年全世界会有10亿个视频摄像头在使用，另一个统计说中国现在已经有1.76亿个摄像头，3年之后可能会有6亿摄像头，也就是说平均两个人一个摄像头。

对大量的视频，尽管我们有压缩手段（视频流），但怎样存储、怎样观看越来越成为一个难题？假如我们想从大量视频当中快速地侦破一个事件，或检索一件事都变得非常困难。那是不是可以用人工智能来帮忙解决这个问题，做到事前预警、事中处置、事后分析呢？

数据压缩，事实上是一种不做内容分析的压缩，包括MPEG1/2、H.264、H.265，甚至现在的H.266，以及中国的压缩标准AVS2/3。即使有这样的压缩，但现在摄像头的像素越来越高，摄像头的数目越来越多，即使有5G的出现，有云端的存储，我们最后的DVR、NVR（即使是云端的存储）也都是一种物理的存储。这不像我们大脑，从来没有一个人说“我们的大脑放不下东西了，我的记忆力满了”这样的话。因此我们就问，什么时候人工智能能做到代替物理的存储？物理存储是一个空间，它是有局限性的。目前的一种做法就是视频图像智能化。

视频图像智能化

对视频图像智能化我们要做好几件事，都是基于图像的分析理解。

第一，视频图像的恢复增强，即在恢复过程中如何提高图像质量。

第二，视频图像的目标检测、跟踪、识别。这个我们可以做到事前预警、事中处置。

第三，视频结构化，它包括人脸属性、行人属性、车辆属性、非机动车属性、以及各种物体的属性，每一个东西都有它的ID（都有它的属性），这些结构化的信息就会使事后检索分析变得更为方便。

第四，在智能化的时代，我们除了普通的图片和视频压缩以外，能不能在视频内容理解的基础上做智能压缩。目前我们也在做智能压缩，也在做视频摘要，这会让我们进一步节省存储的空间和传输的带宽。

1、视频图像恢复增强

刚才讲到图像压缩会造成图像模糊，其实还有很多方面都会造成图像的质量下降，比如设备用的不正当，例如你用了高清的摄像头，但你的lens用的不匹配，或者我们拍摄的时候，环境条件（比如灯光或天气）不太好。李子青老师讲过光线对人脸造成非常大的影响，这几个问题都会让我们看到视频图像恢复增强是非常重要的一关。

分享一下我们最近的成果，对非常小的脸用的是“深度超分辨率技术”。传统的人脸识别在40×40以下就不行了；用上深度学习后可能会提高到30×30。

而我们的工作可以做到12×14（这是一个很小的脸），中间的结果是我们用深度学习的超分辨率方法恢复了他的人脸识别，我们在人脸识别的库上检测发现，用了深度超分辨率以后，我们的人脸识别性能从0.75提高到0.97。

当然还有其他各种各样的模糊问题，我们也都在做，例如运动模糊、defocus的模糊等，我们希望将来能够用单一的模块覆盖不同的模糊。

其次是背光、低光的处理。这里有两个图，右边这张图很黑，什么都看不清，当我们用低光处理后（如左图），内容就可以看到了。第二张图是做人脸识别的时候，如果你背后光线非常亮，你站在那边拍照，常常会出现脸部漆黑一片。我们用了背光处理，背光处理有不同的方法——传统的、深度学习的方法，在不同的硬件上、不同的场景下，我们会选择不同的算法。

图像增强也包括去抖动，比如刮风时抖动引起来的图像模糊，以及去雾、去云、去雨的处理。

2、视频图像识目标检测、跟踪、识别

澎思科技的人脸识别和行人识别、车辆识别，以及非车辆（自行车、摩托车等）的识别都是我们的关键产品，在技术上面，我们要求是非常高的。

这是过去我带领的团队取得的成绩，关于人脸识别，取得了NIST奖，以及微软百万名人脸识别挑战赛的冠军。目标跟踪、行人检测、行人再识别也分别打破了世界记录。此外在PASCAL VOC（ImageNet前身），我们当时连着3年参加比赛，并且连续3年拿到冠军。交通异常检测、自动驾驶、以及智能机器人，我们都有参加比赛拿到过冠军，计算机视觉其实面特别广，它也用在智能机器人，自动驾驶方面。

我们最近在做跨摄像机的行人再识别ReID。在不同的摄像头里，有时候有人脸出现、有时候没有人脸出现，通过ReID的技术，即使在看不到人脸的情况下，我们仍可以通过行人的身体特征去判断这个人是谁。

这是我们做的一些测试，黄色框中这个人根本连脸都看不到，他出现在不同的角落，但我们通过他身体的特征，会知道这是同一个人，ID是55，另外一个人是ID25。

7、8月份左右，我们在行人再识别三大数据集Market1501、DukeMTMC-reID、CUHK03，视频行人再识别三大数据集PRID-2011，iLIDS-VID，MARS，以及行人属性上都打破了世界记录。

人脸识别，澎思更专注于动态捕捉下的人脸识别。监控相机没有办法约束条件，人脸的姿态、灯光的变化各种各样，还有模糊的情况。在这方面，最近澎思的模型在IJB-B和IJB-C下刷新了记录。我们的客户也拿我们的模型去跟友商做了比对，可以看出性能远远超过友商的性能。

李子青老师刚刚提到的ICCV的人脸识别比赛，我们在ICCV LFR挑战赛的轻量级图像识别、大型图像识别和轻量级视频图像识别三项竞赛中成绩第一，一个竞赛成绩第二。

3、视频结构化

视频结构化刚才也讲到了。当你事后想要从视频中检索一件事的时候，可以用视频的属性来检索。

这是公安的需求。原来公安想要从一天的视频中找到想要的东西，要用肉眼来看视频，找一个东西，确定一件事是什么时候发生的，至少要把整个录像看完才行；然而将视频结构化以后，几秒钟就可以找到想要的东西。

澎思科技的视频结构化属性与目标参考了国标，比如对行人结构来讲，我们支持27大项、128小项，这是属于业界第一的。 9月份，澎思在行人属性三个数据库上也刷新了世界记录。

当然，在做的过程中也有很多困难，比如数据采集、以及数据长尾问题。长尾问题我们用了各种方法来解决，甚至用一些传统的图像处理方法，比如雨伞我们可以生成不同颜色的，其中也用了一些很inpainting的技术，也用了GAN来生产，比如最下面这个人脸的数据库不平衡，这个文章已经发表。

澎思也可以做到实时结构化预览、综合检索，以及以图搜图，甚至以图搜视频。

在人脸属性上，除了性别、年龄以外，澎思的算法还包括有没有戴口罩、有没有眼镜等，共支持其它40多个不同的属性描述。

结构化也包括人、车一些行为的异常检测。异常包括交通的异常、打架、抢劫、聚集、事故、抽烟等。 2018年我们也在CVPR上的AI CITY CHALLENGE拿到了冠军。

4、视频内容的智能压缩、视频摘要

最后一个内容，讲一下视频内容的智能压缩，视频摘要。 鲁继文老师提到深度强化学习怎么来帮助我们的例子，在这个问题上，我们知道很难用强化学习来做视频摘要和内容压缩，因为你不知道视频中哪一个行为是最关键、最重要的。

所以，一个策略就是在不同的情况下要有不同的考量，不仅仅是从一帧上去考量，它是在时空域上的一个分析，所以我们采用时空域的特征，并且做到关键内容的保留、压缩和摘要，根据不同的情况，有的时候可以做到10倍、100倍、甚至1000倍的压缩。我们在压缩的过程中属性同时会被记载下来，当将压缩后的这一段视频存下来以后，会不断地将重要的场景和行为存下来，而且对它的属性都有描述。

视频图像智能化，事实上还取决于图像质量的好坏，而图像质量的好坏又取决于整个软硬件系统的构成。比如说拍摄距离是多少、相机的像素是多少、镜头怎么选择、传输的方式是怎么样的、视频图像压缩的方式等，这些都会影响到图像质量的好坏。所以我们说完美体现技术的优势还在于一个很SMART的解决方案，以及系统人员的培训。

在AI产业图谱中的技术层，澎思科技一直走在前面。我们的立场是坚持应用驱动的解决方案，商业驱动的算法研究，用最有效的算法和最经济的软硬体来解决客户的刚需。

因此我的结论就是，视频图像的智能化非常重要。现在很多人都在用深度学习，如果是视频图像数据，就一定要进行结构化分析，这是一个前提。这个方面包括了很多技术，如果把这些技术都用好，我们就可以实现事前预警、事中处置、事后检索分析。我个人更想追求的一个方向是节省存储空间、传输带宽、智能化的方式。

这个方面我相信接下来大家会往这个方面多考虑，我们会有更好的发挥空间，谢谢大家。