Facebook开源算法代码库PySlowFast，轻松复现前沿视频理解模型

2020 年 1 月 7 日 机器之心

机器之心发布

机器之心编辑部

在近些年的视频理解研究中，Facebook AI Research 贡献了许多精彩的工作。近日，FAIR视频团队在 ICCV 相关研讨会上开源了视频识别检测代码库 PySlowFast，并同时发布了预训练的模型库。同时，该团队表示，他们还将实时将他们的前沿工作添加至此代码库。

项目地址：https://github.com/facebookresearch/SlowFast
Tutorial 地址（附 PPTT 资源）：https://alexanderkirillov.github.io/tutorials/visual-recognition-iccv19/

视频与动作理解俨然已成为当今最火热的研究方向之一，然而在开源社区中找到一个简洁、高效、易于修改的视频理解代码库仍不是一件简单的事情。更重要的是，复现当今前沿的 (state-of-the-art) 的深度学习模型一直是一件令研究者头疼的事情。

这些视频理解模型往往动辄几十 GFlops，需要训练数天，而复现出一个模型需要反复的实验调参，让每个细节都正确。这往往会耗费大量的时间和资源，让很多研究者望而却步。

Facebook AI Research 在 CVPR、ICCV 等国际会议发布了众多研究工作，并赢得了 CVPR 2019 行为检测挑战赛的冠军。而后，在今年的 ICCV 上，FAIR 推出了他们的视频理解代码库： PySlowFast。

PySlowfast 是一个基于 PyTorch 的代码库，让研究者可以轻而易举地复现从基础至前沿的视频识别 (Video Classification) 和行为检测 (Action Detection) 算法。

不但如此，PySlowFast 代码库同时开源了大量预训练模型 (pretrain models)，让研究者省去了反复训练模型的烦恼，可以直接使用 FAIR 预训练的前沿 (cutting edge performance) 模型。

pySlowFast开源的模型的可视化检测结果

自开源后，PySlowFast 就一度蝉联 GitHub 趋势榜前十。以下对此开源项目进行了简要介绍。

根据研讨会教程和开源代码库信息， PySlowFast 既提供视频理解基线（baseline）模型，还提供了当今前沿的视频理解算法复现 。其算法不单单囊括视频视频（video classification），同时也包括行为检测（Action Classification）算法。

与当今开源社区中各种视频识别库复现出参差不齐的性能相比， 使用 PySlowFast 可轻而易举地复现出当今前沿的模型 。

视频识别（Kinetics）

表 1： PySlowFast 在视频分类数据库 Kinetics 400 上的性能)（节选自 https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md）

PySlowFast 不单单可以用于视频分类，同时也可用于视频理解，并提供赢得了 2019 年 CVPR ActivityNet Challenge Winner 的视频检测模型。

行为检测（AVA）

此外，PySlowFast 预留了接口，可通过简单的编辑支持多模态视频理解、视频自监督学习等等任务。该团队称， PySlowFast 将被积极维护，实时更新其团队和业界的前沿算法，同开源其预训练模型，使代码库成为视频理解领域的基线标杆 。

通过以下教程，读者们可以简单试用下 PySlowFast 代码库。在完成安装后，通过下载 MODEL_ZOO 提供的预训练模型和相应的配置文件，运行如下代码，就可以测试（Test）模型在不同视频数据库上的性能：

python tools/run_net.py \
  --cfg configs/Kinetics/C2D_8x8_R50.yaml \
  DATA.PATH_TO_DATA_DIR path_to_your_dataset \
  NUM_GPUS 2 \

我们可以发现，通过此代码库可以轻易复现出前沿的高性能模型，同时读者们也可以尝试通过简单的修改来实现自己的模型，并用多台 GPU 进行训练得到前沿的性能。

本文为机器之心发布，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content @jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

登录查看更多

相关内容

视频理解

关注 3

【DeepMind硬核课】深度学习计算机视觉前沿进展，附124页ppt

专知会员服务

168+阅读 · 2020年6月30日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知会员服务

167+阅读 · 2019年10月28日

开发 | PyTorch好助手：PyTorch Hub一键复现各路模型

AI研习社

3+阅读 · 2019年6月12日

抖音短视频推荐大赛小规模赛道Top8模型代码开源

专知

181+阅读 · 2019年5月30日

Mask R-CNN 源代码终上线，Facebook 开源目标检测平台—Detectron

AI100

7+阅读 · 2018年1月24日

【前沿】何恺明大神ICCV2017最佳论文Mask R-CNN的Keras/TensorFlow/Pytorch 代码实现

新智元

5+阅读 · 2017年11月9日

【前沿】何恺明大神ICCV2017最佳论文Mask R-CNN的Keras/TensorFlow/Pytorch 代码实现

专知

16+阅读 · 2017年11月8日

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

4+阅读 · 2018年9月25日

The GAN Landscape: Losses, Architectures, Regularization, and Normalization

Arxiv

3+阅读 · 2018年7月12日

Vision Meets Drones: A Challenge

Arxiv

6+阅读 · 2018年4月23日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

VIP会员