最高比Mask-RCNN快3倍!上交大实时姿态估计AlphaPose升级

2018 年 9 月 7 日 新智元

升级后的AlphaPose,平均检测速度是Mask-RCNN的4倍

新智元AI WORLD 2018世界人工智能峰会

倒计时13


新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,南京大学计算机系主任、人工智能学院院长周志华教授届时将亲临会场做《关于机器学习的一点思考》主题演讲。周志华教授是AI领域会士“大满贯”得主,AAAI 2019程序主席、IJCAI 2021程序主席,《机器学习》一书的作者。

  • 活动行购票二维码: 




  新智元报道 

来源:上海交通大学

【新智元导读】上海交通大学卢策吾团队MVIG实验室最新上线了他们此前开源的实时人体姿态估计系统AlphaPose的升级版。新系统采用 PyTorch 框架,在姿态估计标准测试集COCO上达到当前最高精度71mAP,同时平均速度20FPS,比Mask-RCNN速度快3倍。


AlphaPose是一个实时多人姿态估计系统。


今年2月,上海交通大学卢策吾团队MVIG实验室AlphaPose 系统上线,是首个在 COCO 数据集上可达到 70+ mAP 的开源姿态估计系统。本次更新,在精度不下降情况下,实时性是一大提升亮点


新系统采用 PyTorch 框架,在姿态估计(Pose Estimation)标准测试集COCO validation set上,达到 71mAP的精度(比 OpenPose 相对提升17%,Mask-RCNN相对提升8%),同时,速度达到了20FPS(比 OpenPose 相对提高66%,Mask-RCNN相对提高300%)


再次感受一下升级后AlphaPose的速度


检测精度不变,平均速度比Mask-RCNN快3倍


人体关键点检测对于描述人体姿态,预测人体行为至关重要。因此,人体关键点检测是诸多计算机视觉任务的基础。其在动作分类,异常行为检测,以及人机交互等领域有着很广阔的应用前景,是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。


AlphaPose系统,是基于上海交大MVIG组提出的 RMPE 二步法框架(ICCV 2017论文)构建的,相比其他开源系统在准确率有很大提高,比OpenPose相对提高17%,Mask-RCNN相对提高8.2%。 


升级后,各个开源框架在COCO-Validation上性能,时间在单卡1080ti GPU测出指标如下:


开源系统

准确率

平均速度

Openpose(CMU)

60 mAP

12 FPS

Mask-RCNN(Facebook)

67 mAP

5 FPS

Alphapose(SJTU)

71 mAP

20 FPS


基于PyTorch框架,在人体姿态估计模型中引入Attention模块


新版 AlphaPose 系统,架设在 PyTorch 框架上,得益于Python的灵活性,新系统对用户更加友好,安装使用过程更加简易,同时支持Linux与Windows系统使用,方便进行二次开发。此外,系统支持图片、视频、摄像头输入,实时在线计算出多人的姿态结果。


为了在兼顾速度的同时保持精度,新版AlphaPose提出了一个新的姿态估计模型。模型的骨架网络使用 ResNet101,同时在其下采样部分添加 SE-block 作为 attention 模块——已经有很多实验证明,在 Pose Estimation 模型中引入 attention 模块能提升模型的性能,而仅在下采样部分添加 SE-block 能使 attention 以更少的计算量发挥更好的效果。


除此之外,使用 PixelShuffle + Conv 进行3次上采样,输出关键点的热度图。传统的上采样方法会使用反卷积或双线性插值。而使用 PixelShuffle 的好处在于,在提高分辨率的同时,保持特征信息不丢失。对比双线性插值,运算量低;对比反卷积,则不会出现网格效应。


在系统架构方面,新版 AlphaPose 采用多级流水的工作方式,使用多线程协作,将速度发挥到极致。


AlphaPose 系统目前在COCO的 Validation 集上的运行速度是 20FPS(平均每张图片4.6人),精度达到71mAP。 在拥挤场景下(平均每张图片15人),AlphaPose系统速度仍能保持 10FPS 以上。


更多的细节,请关注即将公开的技术论文。



作者简介



Prof. Cewu Lu is a research Professor at Shanghai Jiao Tong University, leading Machine Vision and Intelligence Group. He was Postdoc at Stanford AI lab (under Fei-Fei Li and Leonidas Guibas) and selected as the 1000 Overseas Talent Plan (Young Talent) (中组部青年千人计划). He is also one of MIT TR35 -"MIT Technology Review, 35 Innovators Under 35 (China)" and co-chair of CVM 2018.


热门文章:



新智元AI WORLD 2018大会倒计时 13 

门票已开售!


新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,邀请机器学习教父、CMU教授 Tom Mitchell,迈克思·泰格马克,周志华,陶大程,陈怡然等AI领袖一起关注机器智能与人类命运。


大会官网:

http://www.aiworld2018.com/ 


  • 活动行购票链接:

    http://www.huodongxing.com/event/6449053775000

  • 活动行购票二维码: 


登录查看更多
4

相关内容

【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
专知会员服务
109+阅读 · 2020年3月12日
密歇根大学《20年目标检测综述》
专知会员服务
97+阅读 · 2019年10月13日
Facebook实时人体姿态估计:Dense Pose及其应用展望
机器之心
9+阅读 · 2019年2月10日
直播 | DeepIM: 基于单张RGB图像的物体姿态估计
AI科技评论
7+阅读 · 2018年11月6日
YOLO升级到v3版,检测速度比R-CNN快1000倍
人工智能头条
10+阅读 · 2018年3月28日
【姿态估计比Mask-RCNN提高8%】上交卢策吾团队开源AlphaPose
上海交大机器视觉与智能实验室
9+阅读 · 2018年2月4日
Arxiv
4+阅读 · 2019年9月26日
Arxiv
11+阅读 · 2019年4月15日
UPSNet: A Unified Panoptic Segmentation Network
Arxiv
4+阅读 · 2019年1月12日
Arxiv
8+阅读 · 2018年5月17日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员