阿里AI又有什么新进展?
近日,在全球权威机器视觉算法排行榜KITTI刷新了排名,阿里巴巴人工智能研究机构iDST夺得行人检测单项冠军。
与此同时,在知名的行人再识别数据集Market1501中,他们也取得重大突破,首位命中率提升至96.17%,位居世界第一。
行人检测、行人再识别是交通管理、城市平安、无人驾驶等领域的两项核心基础技术。
行人检测要求机器能够从图像或者视频中判断是否有行人,行人在哪里;行人再识别则要求机器能够识别出特定人员的所有图像。
在景区商场人流预测、人群个性化分析、行人交通安全、无人驾驶、寻找丢失老人儿童等应用上,这两项技术可以发挥巨大的作用。
“这并非简单的人脸识别。”阿里巴巴iDST副院长、IEEE Fellow华先胜说,在实际的城市场景下,大多数摄像头拍摄到的图像看不清人脸,但通过行人的整体和局部特征则可实现人员的识别。
然而,实际场景中遮挡、光照、拍摄角度、拍摄距离、人物姿态等因素的变化,以及摄像头设备的不同,对行人检测和行人再识别的准确性会提出极大挑战。
具体解决方案上,华先胜领导的机器视觉团队采用了以下几项技术创新:
在行人检测技术方面,提出了基于目标尺寸分级的级联检测网络,并基于动态投票和循环推断的边界框定位策略,重点解决行人检测问题中存在的目标尺寸浮动大、语义特征差异大、遮挡、形变且定位不准等问题。
针对小尺寸目标的检测,利用了面向不同目标尺寸级别的多分支网络结构,充分发挥感兴趣区域的上下文信息提升网络特征提取的能力,同时在目标定位的问题中采用交叉熵正则约束来优化边框定位准确度。
在行人再识别方面,提出了基于局部细粒度信息和全局粗粒度信息相结合的识别网络,并引入了不同摄像头下特征表达一致性的约束,用于多摄像头下的行人再识别任务。
网络结构设计上,利用超分辨模块和特定的人头、上半身和下半身注意力网络和识别网络来得到更清晰的局部细节特征,解决行人全局特征中存在的尺寸影响大、清晰度低等问题,引入全局特征和局部特征的动态融合机制解决局部遮挡问题。同时,采用距离正则约束来提高跨摄像头下行人表征的一致性。
除了行人检测、行人识别之外,iDST还长期占据着KITTI的车辆检测世界冠军,并在计算机视觉国际顶级会议TIP、ACM MM等发表了多篇论文。
阿里方面表示,目前这些技术已经全部集成到阿里云ET城市大脑当中,并在多地落地使用。
华先胜说,“正如60年代的登月计划带来了通讯技术、生物工程技术大爆发一样,城市大脑已经成为世界顶尖的科技创新的平台,前所未有的难题倒逼科学家们创造前所未有的技术”。
此前不久,城市大脑还正式成为国家四大人工智能开放创新平台之一,未来将吸引全球顶尖的研究机构共同参与创新。当前阿里云ET城市大脑已经在杭州、苏州、衢州、乌镇等地落地。
不过阿里并未提及自动驾驶方面的应用和进展,行人检测、行人再识别在自动驾驶的重要性不言自明。此前还有机器视觉公司凭借KITTI夺冠来证明自己的无人车研发实力,就是现在无人货车领域大热的图森未来。
但在国内外巨头纷纷加码自动驾驶的喧嚣里,阿里始终没有透露无人车领域的野心。
对于机器视觉倒是十分重视,内部研发自不必言,外部投资方面,阿里集团旗下的蚂蚁金服投资了旷视科技,而阿里集团之前还传出了15亿元投资商汤科技的消息。
— 完 —
加入社群
量子位AI社群13群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot5入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot5,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态