【导读】Facebook 研究院最近开源了其视频理解理解代码库PySlowFast,可复现最新SOTA视频模型,让使用人员可以轻而易举的复现从基础至前沿的视频识别(Video Classification)和行为检测(Action Detection)算法。 PySlowFast由FAIR的研究工程师樊昊棋等人完成。以下是樊昊棋本人撰写介绍PySlowFast的文章,欢迎大家使用!

项目地址: https://github.com/facebookresearch/SlowFast

视频与动作理解俨然已成为当今最火热的研究方向之一,然而在开源社区中找到一个简洁,高效,易于修改(easy to hack)的视频理解代码库(video understanding codebase)仍不是一件简单的事情。更重要的是,复现当今前沿的(state-of-the-art)的深度学习模型(video understand backbone)一直是令研究者头疼的一件事,视频理解模型往往动辄几十GFlops,需要训练数天,复现出一个模型需要反复的实验调参,让每个细节都正确。这往往会耗费大量的时间和资源,让很多研究者望而却步。

Facebook AI Research(脸书人工智能研究院)在于CVPR,ICCV等国际会议发布了众多研究工作,并赢得了CVPR行为检测挑战赛的冠军后,在ICCV (International Conference of Computer Vision/ 国际机器视觉大会)上,推出了他们的视频理解代码库:PySlowFast。PySlowfast是一个基于PyTorch的代码库,让研究者可以轻而易举的复现从基础至前沿的视频识别(Video Classification)和行为检测(Action Detection)算法。不但如此,PySlowFast代码库同时开源了大量预训练模型(pretrain models),让研究者省去了反复训练模型的烦恼,可以直接使用FAIR预训练的前沿(cutting edge performance)模型。

自开源后,PySlowFast就一度蝉联GitHub趋势榜前十。让我们一趟究竟,看看PySlowFast究竟可以做什么。

根据其研讨会提供的教程和其开源代码库的信息,PySlowFast不但可以提供视频理解的基线(baseline)模型,还能提供当今前沿的视频理解算法复现。其算法不单单囊括视频视频(video classification),同时也包括行为检测(Action Classification)算法。与当今开源社区中各种视频识别库复现出参差不齐的性能相比,使用PySlowFast可轻而易举的复现出当今前沿的模型。

视频识别(Kinetics)

(表1:PySlowFast在视频分类数据库Kinetics400 上的性能) (节选自https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md)

PySlowFast不单单可以用于视频分类,同时也可用于视频理解,并提供赢得了2019年CVPR ActivityNet Challenge Winner的视频检测模型。

行为检测(AVA)

不单单如此,PySlowFast预留了接口,可通过简单的编辑支持多模态视频理解,视频自监督学习等等任务。其团队称,PySlowFast将被积极维护,实时更新其团队和业界的前沿算法,同时一并开源其预训练模型,使代码库成为视频理解领域的基线标杆。

笔者参考其教程简单试用了PySlowFast代码库,在完成安装后,通过下载MODEL_ZOO提供的预训练模型和相应的配置文件,运行如下代码,就可以测试(Test)模型在不同视频数据库上的性能:

python tools/run_net.py
--cfg configs/Kinetics/C2D_8x8_R50.yaml
DATA.PATH_TO_DATA_DIR path_to_your_dataset
NUM_GPUS 2 \

笔者发现可以轻易通过其代码库复现出前沿的高性能模型,同时笔者也尝试通过简单的修改来实现自己的模型,并用多台GPU进行训练得到前沿的性能。

笔者未尝试更加复杂的任务,感兴趣的读者可以直接前往其Github页面一探究竟:https://github.com/facebookresearch/SlowFast

PySlowFast 教程详细介绍

在近些年的视频理解研究中,FacebookAI Research贡献了许多精彩的工作。其视频团队不但在CVPR,ICCV等会议上刊载了数篇高质量的视频研究工作,同时也在各大数据集榜单中拔得头筹,并获得了2019年CVPR行为检测挑战赛的冠军。如今其团队在ICCV研讨会上开源了其视频识别检测代码库:PySlowFast,并同时发布了预训练的模型库。团队称旨在推动视频理解领域的研究工作,同时将实时添加其前沿工作至其代码库。这份教程137页ppt,详细介绍了PySlowFast介绍。

链接地址: https://alexander-kirillov.github.io/tutorials/visual-recognition-iccv19/

最后,来认识下这位大牛作者

樊昊棋,CMU硕士,FAIR 研究工程师,在CVPR/AAAI发表多篇顶级论文。和计算机视觉大神何恺明合作了多个有影响力的工作,前一久自监督学习识别,他是二作。 何恺明一作,刷新7项检测分割任务,无监督预训练完胜有监督 Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross B. Girshick: Momentum Contrast for Unsupervised Visual Representation Learning. CoRRabs/1911.05722 (2019)

PPT下载链接 :https://pan.baidu.com/s/1HrEaA0IlanwpJC39Ndy7gg 提取码:lpmf

成为VIP会员查看完整内容
64

相关内容

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
118+阅读 · 2020年6月26日
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
153+阅读 · 2020年6月14日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
专知会员服务
161+阅读 · 2020年4月21日
专知会员服务
109+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
从FPN到Mask R-CNN,一文告诉你Facebook的计算机视觉有多强
人工智能头条
6+阅读 · 2018年3月20日
快讯 | Facebook开源语音识别工具包wav2letter
大数据文摘
6+阅读 · 2018年1月2日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
118+阅读 · 2020年6月26日
最新《深度学习自动驾驶》技术综述论文,28页pdf
专知会员服务
153+阅读 · 2020年6月14日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
专知会员服务
161+阅读 · 2020年4月21日
专知会员服务
109+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
相关论文
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
7+阅读 · 2018年1月24日
微信扫码咨询专知VIP会员