Facebook开源算法代码库PySlowFast,轻松复现前沿视频理解模型

2020 年 1 月 8 日 CVer

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达

本文转载 自:机器之心

在近些年的视频理解研究中,Facebook AI Research 贡献了许多精彩的工作。近日,FAIR视频团队在 ICCV 相关研讨会上开源了视频识别检测代码库 PySlowFast,并同时发布了预训练的模型库。同时,该团队表示,他们还将实时将他们的前沿工作添加至此代码库。


  • 项目地址:https://github.com/facebookresearch/SlowFast

  • Tutorial 地址(附 PPTT 资源):https://alexanderkirillov.github.io/tutorials/visual-recognition-iccv19/


视频与动作理解俨然已成为当今最火热的研究方向之一,然而在开源社区中找到一个简洁、高效、易于修改的视频理解代码库仍不是一件简单的事情。 更重要的是,复现当今前沿的 (state-of-the-art) 的深度学习模型一直是一件令研究者头疼的事情。

这些视频理解模型往往动辄几十 GFlops,需要训练数天,而复现出一个模型需要反复的实验调参,让每个细节都正确。 这往往会耗费大量的时间和资源,让很多研究者望而却步。


Facebook AI Research 在 CVPR、ICCV 等国际会议发布了众多研究工作,并赢得了 CVPR 2019 行为检测挑战赛的冠军。 而后,在今年的 ICCV 上,FAIR 推出了他们的视频理解代码库: PySlowFast。

PySlowfast 是一个基于 PyTorch 的代码库,让研究者可以轻而易举地复现从基础至前沿的视频识别 (Video Classification) 和行为检测 (Action Detection) 算法。

不但如此,PySlowFast 代码库同时开源了大量预训练模型 (pretrain models),让研究者省去了反复训练模型的烦恼,可以直接使用 FAIR 预训练的前沿 (cutting edge performance) 模型。

pySlowFast开源的模型的可视化检测结果


自开源后,PySlowFast 就一度蝉联 GitHub 趋势榜前十。 以下对此开源项目进行了简要介绍。
 
根据研讨会教程和开源代码库信息, PySlowFast 既提供视频理解基线(baseline)模型,还提供了当今前沿的视频理解算法复现 。其算法不单单囊括视频视频(video classification),同时也包括行为检测(Action Classification)算法。

与当今开源社区中各种视频识别库复现出参差不齐的性能相比, 使用 PySlowFast 可轻而易举地复现出当今前沿的模型

视频识别(Kinetics)

表 1: PySlowFast 在视频分类数据库 Kinetics 400 上的性能)(节选自 https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md)


PySlowFast 不单单可以用于视频分类,同时也可用于视频理解,并提供赢得了 2019 年 CVPR ActivityNet Challenge Winner 的视频检测模型。

行为检测(AVA)


此外,PySlowFast 预留了接口,可通过简单的编辑支持多模态视频理解、视频自监督学习等等任务。该团队称, PySlowFast 将被积极维护,实时更新其团队和业界的前沿算法,同开源其预训练模型,使代码库成为视频理解领域的基线标杆

通过以下教程,读者们可以简单试用下 PySlowFast 代码库。 在完成安装后,通过下载 MODEL_ZOO 提供的预训练模型和相应的配置文件,运行如下代码,就可以测试(Test)模型在不同视频数据库上的性能:

python tools/run_net.py \
  --cfg configs/Kinetics/C2D_8x8_R50.yaml \
  DATA.PATH_TO_DATA_DIR path_to_your_dataset \
  NUM_GPUS 2 \

我们可以发现,通过此代码库可以轻易复现出前沿的高性能模型,同时读者们也可以尝试通过简单的修改来实现自己的模型,并用多台 GPU 进行训练得到前沿的性能。

重磅!CVer-视频理解交流群已成立


扫码可添加CVer助手,可申请加入CVer大群和细分方向群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索等群。


一定要备注:研究方向+地点+学校/公司+昵称(如视频理解+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
1

相关内容

【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack
专知会员服务
45+阅读 · 2020年4月10日
【论文扩展】欧洲语言网格:概述
专知会员服务
7+阅读 · 2020年3月31日
专知会员服务
110+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
85+阅读 · 2019年12月27日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
36+阅读 · 2019年12月15日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
19+阅读 · 2019年10月9日
训练目标检测模型只需要这 6 行代码
AI科技评论
8+阅读 · 2019年8月19日
开发 | PyTorch好助手:PyTorch Hub一键复现各路模型
CVPR2019年热门论文及开源代码分享
深度学习与NLP
7+阅读 · 2019年6月3日
CVPR 2019 Oral 目标跟踪最强算法SiamRPN++开源实现
极市平台
47+阅读 · 2019年5月2日
盘点2018 年含金量最强的 6 款开源机器学习项目
七月在线实验室
7+阅读 · 2019年1月8日
快醒醒,一大波最新 AI 论文加开源代码来袭!
PaperWeekly
3+阅读 · 2018年4月19日
【下载】PyTorch 实现的YOLO v2目标检测算法
专知
15+阅读 · 2017年12月27日
Arxiv
7+阅读 · 2019年4月8日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
6+阅读 · 2018年2月6日
VIP会员
相关VIP内容
【CVPR2020-谷歌】多目标(车辆)跟踪与检测框架 RetinaTrack
专知会员服务
45+阅读 · 2020年4月10日
【论文扩展】欧洲语言网格:概述
专知会员服务
7+阅读 · 2020年3月31日
专知会员服务
110+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
85+阅读 · 2019年12月27日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
36+阅读 · 2019年12月15日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
19+阅读 · 2019年10月9日
相关资讯
训练目标检测模型只需要这 6 行代码
AI科技评论
8+阅读 · 2019年8月19日
开发 | PyTorch好助手:PyTorch Hub一键复现各路模型
CVPR2019年热门论文及开源代码分享
深度学习与NLP
7+阅读 · 2019年6月3日
CVPR 2019 Oral 目标跟踪最强算法SiamRPN++开源实现
极市平台
47+阅读 · 2019年5月2日
盘点2018 年含金量最强的 6 款开源机器学习项目
七月在线实验室
7+阅读 · 2019年1月8日
快醒醒,一大波最新 AI 论文加开源代码来袭!
PaperWeekly
3+阅读 · 2018年4月19日
【下载】PyTorch 实现的YOLO v2目标检测算法
专知
15+阅读 · 2017年12月27日
Top
微信扫码咨询专知VIP会员