视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库

2020 年 1 月 18 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

来源：专知@微信公众号

【导读】FacebookAI 研究院在近期的博文[1]中公布了其在ICCV研讨会[2]最新开源的视频理解代码库: PySlowFast[3]。其代码库可帮助使用者在视频识别（Video Classification），行为检测（Action Detection）等任务中轻易复现现今的基线模型和诸多SOTA的算法，可谓是视频理解领域必不可少的利器之一。

项目地址：

https://github.com/facebookresearch/SlowFast

视频理解是如今相当流行的研究方向，但不同于图像相关的研究，视频理解中庞大的数据集和巨大的模型，让很多视频研究难以开展。想要复现一个STOA的模型，更是可能耗时数周甚至数月。 Facebook AI 研究院近些年在视频理解领贡献了许多有趣的研究工作 ，如今其团队更是在ICCV研讨会上开源了其全新的基于PyTorch的视频理解代码库： PySlowFast

Facebook AI 研究院如今开源了其视频理解代码库，可轻松复现各类基线模型和SOTA算法，同时一并提供了各类的SOTA预训练模型，让使用者轻松的基于前沿算法开展研究和工作，免去了冗长的造轮子和结果复现，同时给予了复现性能上的保证。值得一提的是，PySlowFast一并首次开源了其在CVPR2019行为检测挑战赛上的冠军模型：

CVPR2019行为检测挑战赛上的冠军模型

PySlowFast不但可以提供视频理解的基线（baseline）模型，还能提供当今前沿的视频理解算法复现。其算法不单单囊括视频视频（video classification），同时也包括行为检测（Action Classification）算法。与当今开源社区中各种视频识别库复现出参差不齐的性能相比，使用PySlowFast可轻而易举的复现出当今前沿的模型。

在其教程中，我们可以看出，PySlowFast仔细的处理了众多视频识别和行为检测的细节，包含Decoding，Interpolation，BatchNorm，Network Architecture，Multi-View Ensemble等等诸多问题，保证其模型的准确性和代码的可复现性。（更多细节可参考其ICCV教程ppt）。

与此同时，PySlowFast遵从了众多深度学习研究中的设计，使代码库更便于使用（easy tohack）。

笔者参考了github上各类开源项目对同一模型的复现结果，发现不同项目的复现性能往往有很大的区别，而PySlowFast始终可以复现出STOA的高性能结果：

视频识别（Kinetics）

architecture	depth	frame length x sample rate	top1
C2D	R50	8 x 8	67.2
I3D	R50	8 x 8	73.5
I3D NLN	R50	8 x 8	74.0
SlowOnly	R50	4 x 16	72.7
SlowOnly	R50	8 x 8	74.8
SlowFast	R50	4 x 16	75.6
SlowFast	R50	8 x 8	77.0

PySlowFast不单单可以用于视频分类，同时也可用于视频理解，并提供赢得了2019年CVPR ActivityNet Challenge Winner的视频检测模型。

http://static.googleusercontent.com/media/research.google.com/en//ava/2019/fair_slowfast.pdf

行为检测（AVA）

architecture	depth	frame length x sample rate	MAP	AVA version
SlowOnly	R50	4 x 16	19.5	2.2
SlowFast	R101	8 x 8	28.2	2.1
SlowFast	R101	8 x 8	29.1	2.2
SlowFast	R101	16 x 8	29.4	2.2

ImageNet预训练（Inflation）

architecture	depth	Top1	Top5
ResNet	R50	23.6	6.8

PySlowFast在视频识别，行为检测等任务上的性能表现（节选自https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md)

ICCV研讨会开源之后，PySlowFast就一度蝉联GitHub趋势榜的前十，让我们一探究竟，看看可以如何使用PySlowFast：

通过简单的环境配置后便可以使用PySlowFast：

   
   
     
    
    
      git clone https://github.com/facebookresearch/slowfast
   
   
     
   
   
     
    
    
      cd slowfast
   
   
     
   
   
     
    
    
      python setup.py build develop
   
   
     
  
  
    
   
   
     

  
  
    
  
  
    
   
   
     我们下载了作者提供的预训练模型，并对其进行了测试：
  
  
    
  
  
    
   
   
     

  
  
    
   
   
     
    
    
      python tools/run_net.py \
   
   
     
   
   
     
    
    
        --cfg configs/AVA/c2/SLOWFAST_32x2_R101_50_50_v2.1.yaml \
   
   
     
   
   
     
    
    
        TRAIN.ENABLE False \

  
  
    
   
   
     我们可轻易得到28.2的STOA的AVA结果：
  
  
    
  
  
    
   
   
      
  
  
    
   
   
     
    
    
      {'PascalBoxes_Precision/mAP@0.5IOU': 0.28174505885232703}

PySlowFast团队更表示，此工作旨在推动视频理解领域的研究工作，同时将实时添加其前沿工作至其代码库。ICCV2019 Tutorial 有一份教程137页ppt，详细介绍了PySlowFast使用方法。

链接地址：

https://alexander-kirillov.github.io/tutorials/visual-recognition-iccv19/

［1] https://ai.facebook.com/blog/slowfast-video-recognition-through-dual-frame-rate-analysis

［2] https://alexander-kirillov.github.io/tutorials/visual-recognition-iccv19

［3] https://github.com/facebookresearch/SlowFast

-End-

PS：新年假期，极市将为大家分享计算机视觉顶会 ICCV 2019 大会现场报告系列视频，欢迎前往B站【极市平台】观看，春节也学习，极市不断更，快来打卡点赞吧~

https://www.bilibili.com/video/av83388862

*延伸阅读

CV细分方向交流群

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群（已经添加小助手的好友直接私信），更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~