成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
澎思科技首席科学家申省梅:视频图像智能化,打造完善有效的智慧安防局面
2019 年 11 月 7 日
AI科技评论
作者 | Camel
编辑 | 唐里
申省梅教授是澎思科技首席科学家、新加坡研究院院长
。她长期
致力于监控与安全、智慧城市、自动驾驶、智能机器人以及AI 工厂自动化解决方案等领域的相关技术的开发部署和落地。
在10月中旬举办的 CNCC 2019 大会上,申省梅教授曾组织了「
计算机视觉技术赋能智慧城市
」的技术论坛,其中包括
西湖大学
李子青教授
等人皆作为演讲嘉宾,分享他们的研究内容。
申省梅教授作为主席兼演讲嘉宾,带来了主题为《
视频图像智能化助力智慧安防建设
》的演讲,她认为当前由于巨量摄像头的存在并不断生产出海量的监控视频,如果想要更好地利用、存储和检索视频图像,必须把视频图像智能化,将视频结构化和智能压缩,只有这样才能做到事前预警、事中处置、事后分析。
个人简介:申省梅,澎思科技(PENSEES)首席科学家、新加坡研究院院长,前松下新加坡研究院副院长。作为计算机视觉与深度学习领域顶级科学家,领导超40人的算法研究团队,获得十余项计算机视觉领域国际顶级竞赛冠军,累计专利300余项,致力于监控与安全、智慧城市、自动驾驶、智能机器人以及AI 工厂自动化解决方案等领域的相关技术的开发部署和落地。曾联合新加坡国立大学LV组参加PASCAL VOC(视觉物体分类)连续三年获奖,在美国国家技术标准局(NIST)主办的非受限条件下人脸识别竞赛IJB-A获得了人脸验证 (verification)与人脸辨认(identification)的双项冠军,在微软百万名人识别竞赛MS-Cele-1M人脸挑战赛获双项冠军。
以下为申省梅教授演讲全文,AI 科技评论进行了不改变原意的编辑。
申省梅:
视频图像是从摄像头而来,就像我们的眼睛,我们看到了东西,但如果我们没有大脑来分析,图像就等于是没有意义的东西。
智慧城市包含着方方面面,从最近的落地来看,智慧安防、智慧交通、智慧社区远远走在了前面。那视频图像智能化能如何助力于智慧安防建设?
纵观整个安防行业的发展历程,AI的发挥空间还有很多。我相信大家也熟悉整个安防行业的发展,在座年轻人可能不太清楚,最早监控用的都是模拟摄像头,在中国模拟摄像头可能都不见了,但在其它国家还在大量地被使用。下一个阶段,当数字相机出现以后,就出现了DVR;接着网络监控阶段出现了,那时候我们就叫NVR+网络软件数字相机;今天我们看到的高清摄像头、以及智能监控已经出现在各个应用场景中了。
据英伟达预测,到2020年全世界会有10亿个视频摄像头在使用,另一个统计说中国现在已经有1.76亿个摄像头,3年之后可能会有6亿摄像头,也就是说平均两个人一个摄像头。
对大量的视频,尽管我们有压缩手段(视频流),但怎样存储、怎样观看越来越成为一个难题?假如我们想从大量视频当中快速地侦破一个事件,或检索一件事都变得非常困难。那是不是可以用人工智能来帮忙解决这个问题,做到事前预警、事中处置、事后分析呢?
数据压缩,事实上是一种不做内容分析的压缩,包括MPEG1/2、H.264、H.265,甚至现在的H.266,以及中国的压缩标准AVS2/3。
即使有这样的压缩,但现在摄像头的像素越来越高,摄像头的数目越来越多,即使有5G的出现,有云端的存储,我们最后的DVR、NVR(即使是云端的存储)也都是一种物理的存储。
这不像我们大脑,从来没有一个人说“我们的大脑放不下东西了,我的记忆力满了”这样的话。
因此我们就问,什么时候人工智能能做到代替物理的存储?
物理存储是一个空间,它是有局限性的。
目前的一种做法就是视频图像智能化。
视频图像智能化
对视频图像智能化我们要做好几件事,都是基于图像的分析理解。
第一,视频图像的恢复增强,即在恢复过程中如何提高图像质量。
第二,视频图像的目标检测、跟踪、识别。这个我们可以做到事前预警、事中处置。
第三,视频结构化,它包括人脸属性、行人属性、车辆属性、非机动车属性、以及各种物体的属性,每一个东西都有它的ID(都有它的属性),这些结构化的信息就会使事后检索分析变得更为方便。
第四,在智能化的时代,我们除了普通的图片和视频压缩以外,能不能在视频内容理解的基础上做智能压缩。目前我们也在做智能压缩,也在做视频摘要,这会让我们进一步节省存储的空间和传输的带宽。
1、视频图像恢复增强
刚才讲到图像压缩会造成图像模糊,其实还有很多方面都会造成图像的质量下降,比如设备用的不正当,例如你用了高清的摄像头,但你的lens用的不匹配,或者我们拍摄的时候,环境条件(比如灯光或天气)不太好。
李子青老师讲过光线对人脸造成非常大的影响,这几个问题都会让我们看到视频图像恢复增强是非常重要的一关。
分享一下我们最近的成果,对非常小的脸用的是“深度超分辨率技术”。
传统的人脸识别在40×40以下就不行了;
用上深度学习后可能会提高到30×30。
而我们的工作可以做到12×14(这是一个很小的脸),中间的结果是我们用深度学习的超分辨率方法恢复了他的人脸识别,我们在人脸识别的库上检测发现,用了深度超分辨率以后,我们的人脸识别性能从0.75提高到0.97。
当然还有其他各种各样的模糊问题,我们也都在做,例如运动模糊、defocus的模糊等,我们希望将来能够用单一的模块覆盖不同的模糊。
其次是背光、低光的处理。
这里有两个图,右边这张图很黑,什么都看不清,当我们用低光处理后(如左图),内容就可以看到了。
第二张图是做人脸识别的时候,如果你背后光线非常亮,你站在那边拍照,常常会出现脸部漆黑一片。
我们用了背光处理,背光处理有不同的方法——传统的、深度学习的方法,在不同的硬件上、不同的场景下,我们会选择不同的算法。
图像增强也包括去抖动,比如刮风时抖动引起来的图像模糊,以及去雾、去云、去雨的处理。
2、视频图像识目标检测、跟踪、识别
澎思科技的人脸识别和行人识别、车辆识别,以及非车辆(自行车、摩托车等)的识别都是我们的关键产品,在技术上面,我们要求是非常高的。
这是过去我
带领的团队取得的成绩,
关于人脸识别,取得了NIST奖,以及微软百万
名人脸识别挑战赛的冠军。
目标跟踪、行人检测、行人再识别也分别打破了世界记录。
此外在PASCAL VOC(ImageNet前身),我们当时连着3年参加比赛,并且连续3年拿到冠军。
交通异常检测、自动驾驶、以及智能机器人,我们都有参加比赛拿到过冠军,计算机视觉其实面特别广,它也用在智能机器人,自动驾驶方面。
我们最近在做跨摄像机的行人再识别ReID。
在不同的摄像头里,有时候有人脸出现、有时候没有人脸出现,通过ReID的技术,即使在看不到人脸的情况下,我们仍可以通过行人的身体特征去判断这个人是谁。
这是我们做的一些测试,黄色框中这个人根本连脸都看不到,他出现在不同的角落,
但我们通过他身体的特征,会知道这是同一个人,ID是55,另外一个人是ID25。
7、8月份左右,我们在行人再识别三大数据集Market1501、DukeMTMC-reID、CUHK03,视频行人再识别三大数据集PRID-2011,iLIDS-VID,MARS,以及行人属性上都打破了世界记录。
人脸识别,澎思更专注于动态捕捉下的人脸识别。
监控相机没有办法约束条件,人脸的姿态、灯光的变化各种各样,还有模糊的情况。
在这方面,最近澎思的模型在IJB-B和IJB-C下刷新了记录。
我们的客户也拿我们的模型去跟友商做了比对,可以看出性能远远超过友商的性能。
李子青老师刚刚提到的ICCV的人脸识别比赛,我们在ICCV LFR挑战赛的轻量级图像识别、大型图像识别和轻量级视频图像识别三项竞赛中成绩第一,一个竞赛成绩第二。
3、视频结构化
视频结构化刚才也讲到了。当你事后想要从视频中检索一件事的时候,可以用视频的属性来检索。
这是公安的需求。
原来公安想要从一天的视频中找到想要的东西,要用肉眼来看视频,找一个东西,确定一件事是什么时候发生的,至少要把整个录像看完才行;
然而将视频结构化以后,几秒钟就可以找到想要的东西。
澎思科技的视频结构化属性与目标参考了国标,比如对行人结构来讲,我们支持27大项、128小项,这是属于业界第一的。
9月份,澎思在行人属性三个数据库上也刷新了世界记录。
当然,在做的过程中也有很多困难,比如数据采集、以及数据长尾问题。
长尾问题我们用了各种方法来解决,甚至用一些传统的图像处理方法,比如雨伞我们可以生成不同颜色的,其中也用了一些很inpainting的技术,也用了GAN来生产,比如最下面这个人脸的数据库不平衡,这个文章已经发表。
澎思也可以做到实时结构化预览、综合检索,以及以图搜图,甚至以图搜视频。
在人脸属性上,除了性别、年龄以外,澎思的算法还包括有没有戴口罩、有没有眼镜等,共支持其它40多个不同的属性描述。
结构化也包括人、车一些行为的异常检测。
异常包括交通的异常、打架、抢劫、聚集、事故、抽烟等。
2018年我们也在CVPR上的AI CITY CHALLENGE拿到了冠军。
4、视频内容的智能压缩、视频摘要
最后一个内容,讲一下视频内容的智能压缩,视频摘要。
鲁继文老师提到深度强化学习怎么来帮助我们的例子,在这个问题上,我们知道很难用强化学习来做视频摘要和内容压缩,因为你不知道视频中哪一个行为是最关键、最重要的。
所以,一个策略就是在不同的情况下要有不同的考量,不仅仅是从一帧上去考量,它是在时空域上的一个分析,所以我们采用时空域的特征,并且做到关键内容的保留、压缩和摘要,根据不同的情况,有的时候可以做到10倍、100倍、甚至1000倍的压缩。我们在压缩的过程中属性同时会被记载下来,当将压缩后的这一段视频存下来以后,会不断地将重要的场景和行为存下来,而且对它的属性都有描述。
视频图像智能化,事实上还取决于图像质量的好坏,而图像质量的好坏又取决于整个软硬件系统的构成。比如说拍摄距离是多少、相机的像素是多少、镜头怎么选择、传输的方式是怎么样的、视频图像压缩的方式等,这些都会影响到图像质量的好坏。所以我们说完美体现技术的优势还在于一个很SMART的解决方案,以及系统人员的培训。
在AI产业图谱中的技术层,澎思科技一直走在前面。我们的立场是坚持应用驱动的解决方案,商业驱动的算法研究,用最有效的算法和最经济的软硬体来解决客户的刚需。
因此我的结论就是,视频图像的智能化非常重要。
现在很多人都在用深度学习,如果是视频图像数据,就一定要进行结构化分析,这是一个前提。这个方面包括了很多技术,如果把这些技术都用好,我们就可以实现事前预警、事中处置、事后检索分析。我个人更想追求的一个方向是节省存储空间、传输带宽、智能化的方式。
这个方面我相信接下来大家会往这个方面多考虑,我们会有更好的发挥空间,谢谢大家。
点击“
阅读原文
”查看
计算机视觉技术深度解读之视频动作识别
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
安防
关注
7
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
【ICLR2020】图神经网络与图像处理,微分方程,27页ppt
专知会员服务
47+阅读 · 2020年6月6日
电力人工智能发展报告,33页ppt
专知会员服务
128+阅读 · 2019年12月25日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
【北京智源大会2019】活体高时空分辨率成像以及大数据分析,北京大学分子医学研究所教授陈良怡
专知会员服务
15+阅读 · 2019年11月22日
【BAAI|2019】类脑神经网络技术及其应用,鲁华祥(附pdf)
专知会员服务
29+阅读 · 2019年11月21日
图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
【2019 北京智源大会】NLP、多模态智能和机器学习 何晓冬/京东集团技术副总裁
专知会员服务
47+阅读 · 2019年11月1日
问答与对话-技术与系统之人工智能在人机对话系统中的技术现状与挑战【严睿】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期
专知会员服务
32+阅读 · 2019年10月23日
城市大脑与边缘计算,特邀嘉宾中国工程院院士高文,第八届全国社会媒体处理大会SMP2019
专知会员服务
56+阅读 · 2019年10月22日
NVIDIA研究院系列专场火热进行,深度讲解GAN、图像转换、视觉场景理解和图像修复!
智东西
7+阅读 · 2019年9月7日
CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来
THU数据派
10+阅读 · 2019年4月8日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
深度丨高文院士50页PPT,剖析城市大脑的瓶颈与数字视网膜技术
AI掘金志
9+阅读 · 2019年1月8日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
【仿真】电子制造智慧工厂关键支撑技术:智慧工厂建模与实时仿真
产业智能官
9+阅读 · 2018年5月7日
【图文实录】旷视首席科学家孙剑:计算机视觉的变革和挑战
机器学习研究会
3+阅读 · 2018年3月16日
【机器视觉】独家盘点:详解国内外34家物联网机器视觉技术企业
产业智能官
8+阅读 · 2018年1月17日
京东与斯坦福达成战略合作 携手推进AI研究
京东大数据
3+阅读 · 2017年11月28日
【智能安防】人像态势识别及其在智能视频监控中的应用
产业智能官
3+阅读 · 2017年11月6日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Adversarial Representation Learning for Text-to-Image Matching
Arxiv
6+阅读 · 2019年8月28日
Multimodal Deep Network Embedding with Integrated Structure and Attribute Information
Arxiv
4+阅读 · 2019年3月28日
To Cluster, or Not to Cluster: An Analysis of Clusterability Methods
Arxiv
4+阅读 · 2018年8月24日
Learning Conditioned Graph Structures for Interpretable Visual Question Answering
Arxiv
5+阅读 · 2018年7月5日
Image Retrieval with Mixed Initiative and Multimodal Feedback
Arxiv
5+阅读 · 2018年5月8日
Stylistic Variation in Social Media Part-of-Speech Tagging
Arxiv
4+阅读 · 2018年4月19日
Image Segmentation Using Subspace Representation and Sparse Decomposition
Arxiv
6+阅读 · 2018年4月6日
Adversarial Attribute-Image Person Re-identification
Arxiv
7+阅读 · 2018年2月6日
Interpretable Counting for Visual Question Answering
Arxiv
3+阅读 · 2017年12月23日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
安防
Cisco
AI与城市
视频结构化
人脸识别
智能机器人
相关VIP内容
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
【ICLR2020】图神经网络与图像处理,微分方程,27页ppt
专知会员服务
47+阅读 · 2020年6月6日
电力人工智能发展报告,33页ppt
专知会员服务
128+阅读 · 2019年12月25日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
【北京智源大会2019】活体高时空分辨率成像以及大数据分析,北京大学分子医学研究所教授陈良怡
专知会员服务
15+阅读 · 2019年11月22日
【BAAI|2019】类脑神经网络技术及其应用,鲁华祥(附pdf)
专知会员服务
29+阅读 · 2019年11月21日
图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
【2019 北京智源大会】NLP、多模态智能和机器学习 何晓冬/京东集团技术副总裁
专知会员服务
47+阅读 · 2019年11月1日
问答与对话-技术与系统之人工智能在人机对话系统中的技术现状与挑战【严睿】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期
专知会员服务
32+阅读 · 2019年10月23日
城市大脑与边缘计算,特邀嘉宾中国工程院院士高文,第八届全国社会媒体处理大会SMP2019
专知会员服务
56+阅读 · 2019年10月22日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
NVIDIA研究院系列专场火热进行,深度讲解GAN、图像转换、视觉场景理解和图像修复!
智东西
7+阅读 · 2019年9月7日
CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来
THU数据派
10+阅读 · 2019年4月8日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
深度丨高文院士50页PPT,剖析城市大脑的瓶颈与数字视网膜技术
AI掘金志
9+阅读 · 2019年1月8日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
【仿真】电子制造智慧工厂关键支撑技术:智慧工厂建模与实时仿真
产业智能官
9+阅读 · 2018年5月7日
【图文实录】旷视首席科学家孙剑:计算机视觉的变革和挑战
机器学习研究会
3+阅读 · 2018年3月16日
【机器视觉】独家盘点:详解国内外34家物联网机器视觉技术企业
产业智能官
8+阅读 · 2018年1月17日
京东与斯坦福达成战略合作 携手推进AI研究
京东大数据
3+阅读 · 2017年11月28日
【智能安防】人像态势识别及其在智能视频监控中的应用
产业智能官
3+阅读 · 2017年11月6日
相关论文
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Adversarial Representation Learning for Text-to-Image Matching
Arxiv
6+阅读 · 2019年8月28日
Multimodal Deep Network Embedding with Integrated Structure and Attribute Information
Arxiv
4+阅读 · 2019年3月28日
To Cluster, or Not to Cluster: An Analysis of Clusterability Methods
Arxiv
4+阅读 · 2018年8月24日
Learning Conditioned Graph Structures for Interpretable Visual Question Answering
Arxiv
5+阅读 · 2018年7月5日
Image Retrieval with Mixed Initiative and Multimodal Feedback
Arxiv
5+阅读 · 2018年5月8日
Stylistic Variation in Social Media Part-of-Speech Tagging
Arxiv
4+阅读 · 2018年4月19日
Image Segmentation Using Subspace Representation and Sparse Decomposition
Arxiv
6+阅读 · 2018年4月6日
Adversarial Attribute-Image Person Re-identification
Arxiv
7+阅读 · 2018年2月6日
Interpretable Counting for Visual Question Answering
Arxiv
3+阅读 · 2017年12月23日
大家都在搜
palantir
洛克菲勒
大规模语言模型
CMU博士论文
无人机系统
自主可控
无人艇
机器狗
evolution
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top