中科大和微软亚洲研究院,发布了新的人体姿态估计模型,刷新了三项COCO纪录,还中选了CVPR 2019。
这个名叫HRNet的神经网络,拥有与众不同的并联结构,可以随时保持高分辨率表征,不只靠从低分辨率表征里,恢复高分辨率表征。
如此一来,姿势识别的效果明显提升:
在COCO数据集的关键点检测、姿态估计、多人姿态估计这三项任务里,HRNet都超越了所有前辈。
更加优秀的是,团队已经把模型开源了。
HRNet,是高分辨率网络 (High-Resolution Net) 的缩写。
团队希望,在表征学习 (Representative Learning) 的整个过程中,都能保持高分辨率表征。
所以,他们为模型设计了并联结构,把不同分辨率的子网络,用新的方式连在一起:
对比一下,前辈们连接各种分辨率,常常是用简单的串联,不论由高到低,还是由低到高:
那么,仔细观察一下HRNet的并联网络。
它从一个高分辨率的子网络开始,慢慢加入分辨率由高到低的子网络。
特别之处在于,它不是依赖一个单独的、由低到高的上采样 (Upsampling) 步骤,粗暴地把低层、高层表征聚合到一起;
而是在整个过程中,不停地融合 (Fusion) 各种不同尺度的表征。
这里,团队用了交换单元 (Exchange Units) ,穿梭在不同的子网络之间:让每一个子网络,都能从其他子网络生产的表征里,获得信息。
这样不断进行下去,就能得到丰富的高分辨率表征了。
团队先在COCO数据集的val2017验证集上,对比了HRNet和一众前辈的关键点检测表现。
结果是,在两种输入分辨率上,大模型HRNet-W48和小模型HRNet-W32,都刷新了COCO纪录。
其中,大模型在384 x 288的输入分辨率上,拿到了76.3的AP分。
然后,团队又在COCO的test-dev2017测试集上,为HRNet和其他选手举办了姿态估计比赛。
结果,大模型和小模型,也都刷新了COCO纪录。大模型的AP分达到了77.0。
另外,在多人姿态估计任务上,HRNet又超越了前辈们在COCO数据集上的成绩。
那么,其他数据集能难倒它么?
在MPII验证集、PoseTrack、ImageNet验证集上,HRNet的表现都好过所有同台的对手。
详细的成绩表,请从文底传送门前往。
刷榜活动圆满结束。
团队把这个振奋人心的模型开了源,是用PyTorch实现的。
除了估计姿势,这个方法也可以做语义分割,人脸对齐,物体检测,等等等等。
所以,你也去试一试吧。
论文传送门:
https://arxiv.org/abs/1902.09212
代码传送门:
https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
— 完 —
加入社群
量子位现开放「AI+行业」社群,面向AI行业相关从业者,技术、产品等人员,根据所在行业可选择相应行业社群,在量子位公众号(QbitAI)对话界面回复关键词“行业群”,获取入群方式。行业群会有审核,敬请谅解。
此外,量子位AI社群正在招募,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式。
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「好看」吧 !