谁才是最强的视频动作识别算法?

2021 年 1 月 8 日 ApacheMXNet

2020 短视频继续爆发式发展,对视频理解的需求也继续猛增。不论是搞科研,还是项目落地,如何选择一个合适自己应用场景的视频模型至关重要。然而,论文满天飞,SOTA 年年变,到底该怎样快速上车视频风口呢?在这次 GluonCV 0.9.0 发布中,我们不仅提供了针对视频动作识别可复现的模型库[1] (46 个模型,支持 PyTorch 和 MXNet),易上手的教程(特征抽取 [2]模型微调 [3]FLOPS 计算 [4]),还有涵盖 200 + 篇论文的综述 [5],以及对应的视频教程 (Youtube [6] 和 bilibili [7])。不论你需要一个能复现的代码库,还是准确率最高的模型,还是公平比较的基准(包括数据集),或是未来研究的方向,GluonCV 0.9.0 里都能找到,一应俱全。


目前很多视频领域的数据集需要用户自行下载,而视频平台的管理与下载过程的网络波动都有可能使得每次下载的数据集不完全一致,进而导致不公平比较。因此,我们首先在统一的数据上复现了大量流行的视频动作识别算法(数据准备 GluonCV 也有提供 [8])。如下表所示,我们逐一展示了每个模型的计算 FLOPS,参数量的大小,每秒可处理的视频帧数,延迟时间以及在 Kinetics400 数据集上的准确率。我们发现尽管 3D 网络的精度比 2D 网络稍高,但也会带来更多的计算消耗,延迟大大增加。对效率要求很高的系统,比如边缘设备,或许 2D 网络更适合部署。另外,预训练数据集的大小往往比模型的改进能带来更多的精度提升,比如两年前的 CSN [9] 模型在 IG65M [10] 大型数据集的加持下,可以轻松超越最新的所有算法。所以我们的一个结论是,视频方向从业者可以考虑尽可能多搜集或者清理一些数据,比一味的追求最新最好的模型要实用的多。除此之外,针对不同的应用需求,我们也应该灵活选用不同的网络。比如对于较短的视频,我们就无需选用具备长时间跨度建模的模型。如果想了解更多模型的特性,请参考我们的综述论文


另外,训练一个 SOTA 的视频模型非常耗时耗力,即使在 8 卡 V100 的服务器上,动辄也要花费一周的时间。为了帮助大家快速迭代,我们提供了 DistributedDataParallel (DDP) 框架的支持和 Multigrid 训练方式 [11]。如下图所示, 在单机 8 卡的设置下,基线 DataParallel (DP) 模式需要 250 小时完成 I3D 模型 100 个 epoch 的训练,我们的框架可以在 41 个小时内完成训练,比基线快 6 倍还不掉点。如果使用 4 个八卡 V100 的服务器,则可以在 10 小时内训练完毕,完美线性提速。相比而言,mmaction2 基于视频输入的 I3D [12] 在单机 8 卡上训练则需要 148 个小时。

总结

GluonCV 0.9.0 提供了基于 PyTorch 的视频动作识别的模型库。从做好玩的 demo,到有用的研究,到真正的落地,我们都有对应的配套教程。在接下来的发布中,我们还会陆续更新 PyTorch 的模型库,包括目标检测,目标跟踪,多模态视频学习以及自监督视频特征学习的模型。欢迎大家贡献自己的工作到 GluonCV 里来, 也欢迎给我们留 issue 开 PR,感谢小伙伴们一直以来的支持!

相关链接

[1] https://cv.gluon.ai/model_zoo/action_recognition.html

[2] https://github.com/dmlc/gluon-cv/blob/master/scripts/action-recognition/feat_extract_pytorch.py

[3] https://cv.gluon.ai/build/examples_torch_action_recognition/finetune_custom.html

[4] https://github.com/dmlc/gluon-cv/blob/master/scripts/action-recognition/get_flops.py

[5] https://arxiv.org/abs/2012.06567

[6] https://www.youtube.com/watch?v=Jwt0Wtlv_uo&list=PLGCZZzK2R0X6RQiQrbShUULsbF1qeC17d

[7] https://www.bilibili.com/video/BV1ZZ4y1g7zm

[8] https://github.com/dmlc/gluon-cv/blob/master/scripts/action-recognition/ARXIV.md

[9] https://arxiv.org/abs/1904.02811

[10] https://arxiv.org/abs/1905.00561

[11] https://arxiv.org/abs/1912.00998

[12] https://github.com/open-mmlab/mmaction2/blob/master/configs/recognition/i3d/README.md

    喜欢我们的工作并且希望支持更多的更新,欢迎点赞加星 Fork!



    登录查看更多
    1

    相关内容

    【NeurIPS2021】基于关联与识别的少样本目标检测
    专知会员服务
    20+阅读 · 2021年11月29日
    [ICCV2021]自适应多模态选取框架用于视频理解
    专知会员服务
    17+阅读 · 2021年10月30日
    专知会员服务
    17+阅读 · 2021年4月24日
    专知会员服务
    29+阅读 · 2021年4月5日
    专知会员服务
    85+阅读 · 2021年3月31日
    专知会员服务
    44+阅读 · 2021年3月19日
    深度学习目标检测方法综述
    专知会员服务
    258+阅读 · 2020年8月1日
    专知会员服务
    53+阅读 · 2020年3月16日
    烟雾识别冠军方案分享|极市打榜
    极市平台
    0+阅读 · 2022年4月11日
    【极市打榜|算法上新】口罩识别
    极市平台
    0+阅读 · 2022年2月19日
    京东招聘CV算法实习生
    CVer
    1+阅读 · 2022年1月14日
    极市项目|非法垂钓识别算法需求
    极市平台
    18+阅读 · 2021年6月27日
    行为识别(action recognition)目前的难点在哪?
    极市平台
    36+阅读 · 2019年2月14日
    论文落地 101:算法工程化的那些坑
    PaperWeekly
    13+阅读 · 2018年11月3日
    一文看懂如何将深度学习应用于视频动作识别
    国家自然科学基金
    1+阅读 · 2015年12月31日
    国家自然科学基金
    1+阅读 · 2014年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    2+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    3+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2012年12月31日
    国家自然科学基金
    0+阅读 · 2012年12月31日
    国家自然科学基金
    1+阅读 · 2012年12月31日
    国家自然科学基金
    1+阅读 · 2012年12月31日
    Model Reduction via Dynamic Mode Decomposition
    Arxiv
    0+阅读 · 2022年4月20日
    Arxiv
    0+阅读 · 2022年4月15日
    SlowFast Networks for Video Recognition
    Arxiv
    19+阅读 · 2018年12月10日
    VIP会员
    相关VIP内容
    【NeurIPS2021】基于关联与识别的少样本目标检测
    专知会员服务
    20+阅读 · 2021年11月29日
    [ICCV2021]自适应多模态选取框架用于视频理解
    专知会员服务
    17+阅读 · 2021年10月30日
    专知会员服务
    17+阅读 · 2021年4月24日
    专知会员服务
    29+阅读 · 2021年4月5日
    专知会员服务
    85+阅读 · 2021年3月31日
    专知会员服务
    44+阅读 · 2021年3月19日
    深度学习目标检测方法综述
    专知会员服务
    258+阅读 · 2020年8月1日
    专知会员服务
    53+阅读 · 2020年3月16日
    相关资讯
    烟雾识别冠军方案分享|极市打榜
    极市平台
    0+阅读 · 2022年4月11日
    【极市打榜|算法上新】口罩识别
    极市平台
    0+阅读 · 2022年2月19日
    京东招聘CV算法实习生
    CVer
    1+阅读 · 2022年1月14日
    极市项目|非法垂钓识别算法需求
    极市平台
    18+阅读 · 2021年6月27日
    行为识别(action recognition)目前的难点在哪?
    极市平台
    36+阅读 · 2019年2月14日
    论文落地 101:算法工程化的那些坑
    PaperWeekly
    13+阅读 · 2018年11月3日
    一文看懂如何将深度学习应用于视频动作识别
    相关基金
    国家自然科学基金
    1+阅读 · 2015年12月31日
    国家自然科学基金
    1+阅读 · 2014年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    2+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    3+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2012年12月31日
    国家自然科学基金
    0+阅读 · 2012年12月31日
    国家自然科学基金
    1+阅读 · 2012年12月31日
    国家自然科学基金
    1+阅读 · 2012年12月31日
    Top
    微信扫码咨询专知VIP会员