视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库

2020 年 1 月 6 日 专知
【导读】FacebookAI 研究院在近期的博文[1]中公布了其在ICCV研讨会[2]最新开源的视频理解代码库: PySlowFast[3]。其代码库可帮助使用者在视频识别(Video Classification),行为检测(Action Detection)等任务中轻易复现现今的基线模型和诸多SOTA的算法,可谓是视频理解领域必不可少的利器之一

项目地址:
https://github.com/facebookresearch/SlowFast


视频理解是如今相当流行的研究方向,但不同于图像相关的研究,视频理解中庞大的数据集和巨大的模型,让很多视频研究难以开展。想要复现一个STOA的模型,更是可能耗时数周甚至数月Facebook AI 研究院近些年在视频理解领贡献了许多有趣的研究工作,如今其团队更是在ICCV研讨会上开源了其全新的基于PyTorch的视频理解代码PySlowFast


Facebook AI 研究院如今开源了其视频理解代码库,可轻松复现各类基线模型和SOTA算法,同时一并提供了各类的SOTA预训练模型,让使用者轻松的基于前沿算法开展研究和工作,免去了冗长的造轮子和结果复现,同时给予了复现性能上的保证。值得一提的是,PySlowFast一并首次开源了其在CVPR2019行为检测挑战赛上的冠军模型:


CVPR2019行为检测挑战赛上的冠军模型


  PySlowFast不但可以提供视频理解的基线(baseline)模型,还能提供当今前沿的视频理解算法复现。其算法不单单囊括视频视频(video classification),同时也包括行为检测(Action Classification)算法。与当今开源社区中各种视频识别库复现出参差不齐的性能相比,使用PySlowFast可轻而易举的复现出当今前沿的模型。

在其教程中,我们可以看出,PySlowFast仔细的处理了众多视频识别和行为检测的细节,包含Decoding,Interpolation,BatchNorm,Network Architecture,Multi-View Ensemble等等诸多问题,保证其模型的准确性和代码的可复现性。(更多细节可参考其ICCV教程ppt)。


与此同时,PySlowFast遵从了众多深度学习研究中的设计,使代码库更便于使用(easy tohack)。




笔者参考了github上各类开源项目对同一模型的复现结果,发现不同项目的复现性能往往有很大的区别,而PySlowFast始终可以复现出STOA的高性能结果:

 
视频识别(Kinetics)

architecture

depth

frame length x sample rate

top1

C2D

R50

8 x 8

67.2

I3D

R50

8 x 8

73.5

I3D NLN

R50

8 x 8

74.0

SlowOnly

R50

4 x 16

72.7

SlowOnly

R50

8 x 8

74.8

SlowFast

R50

4 x 16

75.6

SlowFast

R50

8 x 8

77.0


PySlowFast不单单可以用于视频分类,同时也可用于视频理解,并提供赢得了2019CVPR ActivityNet Challenge Winner的视频检测模型。

http://static.googleusercontent.com/media/research.google.com/en//ava/2019/fair_slowfast.pdf



行为检测(AVA)

architecture

depth

frame length x sample rate

MAP

AVA version

SlowOnly

R50

4 x 16

19.5

2.2

SlowFast

R101

8 x 8

28.2

2.1

SlowFast

R101

8 x 8

29.1

2.2

SlowFast

R101

16 x 8

29.4

2.2

ImageNet预训练(Inflation

architecture

depth

Top1

Top5

ResNet

R50

23.6

6.8

PySlowFast在视频识别,行为检测等任务上的性能表现(节选自https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md)



ICCV研讨会开源之后,PySlowFast就一度蝉联GitHub趋势榜的前十,让我们一探究竟,看看可以如何使用PySlowFast:

 

通过简单的环境配置后便可以使用PySlowFast

git clone https://github.com/facebookresearch/slowfast
cd slowfast
python setup.py build develop

我们下载了作者提供的预训练模型,并对其进行了测试:

python tools/run_net.py \
  --cfg configs/AVA/c2/SLOWFAST_32x2_R101_50_50_v2.1.yaml \
  TRAIN.ENABLE False \

 

我们可轻易得到28.2STOAAVA结果:

 

{'PascalBoxes_Precision/mAP@0.5IOU': 0.28174505885232703}

 

 

PySlowFast团队更表示,此工作旨在推动视频理解领域的研究工作,同时将实时添加其前沿工作至其代码库。ICCV2019 Tutorial 有一份教程137页ppt,详细介绍了PySlowFast使用方法。


 

链接地址:

https://alexander-kirillov.github.io/tutorials/visual-recognition-iccv19/ 

 

[1]  https://ai.facebook.com/blog/slowfast-video-recognition-through-dual-frame-rate-analysis

[2]   https://alexander-kirillov.github.io/tutorials/visual-recognition-iccv19

[3]   https://github.com/facebookresearch/SlowFast


便捷查看下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“PSF” 就可以获取PySlowFast教程137页ppt专知下载链接索引


专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询

点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料

登录查看更多
3

相关内容

专知会员服务
163+阅读 · 2020年4月21日
专知会员服务
110+阅读 · 2020年3月12日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
40+阅读 · 2020年3月9日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
55+阅读 · 2020年2月18日
深度学习视频中多目标跟踪:论文综述
专知会员服务
94+阅读 · 2019年10月13日
学界 | Facebook、谷歌分别改进何恺明 FPN 工作
AI科技评论
11+阅读 · 2019年4月19日
快醒醒,一大波最新 AI 论文加开源代码来袭!
PaperWeekly
3+阅读 · 2018年4月19日
快讯 | Facebook开源语音识别工具包wav2letter
大数据文摘
6+阅读 · 2018年1月2日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
8+阅读 · 2018年1月25日
Arxiv
5+阅读 · 2016年12月29日
VIP会员
相关VIP内容
专知会员服务
163+阅读 · 2020年4月21日
专知会员服务
110+阅读 · 2020年3月12日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
40+阅读 · 2020年3月9日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
55+阅读 · 2020年2月18日
深度学习视频中多目标跟踪:论文综述
专知会员服务
94+阅读 · 2019年10月13日
Top
微信扫码咨询专知VIP会员