谁才是最强的视频动作识别算法？

2021 年 1 月 8 日 ApacheMXNet

2020 短视频继续爆发式发展，对视频理解的需求也继续猛增。不论是搞科研，还是项目落地，如何选择一个合适自己应用场景的视频模型至关重要。然而，论文满天飞，SOTA 年年变，到底该怎样快速上车视频风口呢？在这次 GluonCV 0.9.0 发布中，我们不仅提供了针对视频动作识别可复现的模型库[1] (46 个模型，支持 PyTorch 和 MXNet)，易上手的教程（特征抽取 [2]，模型微调 [3]，FLOPS 计算 [4]），还有涵盖 200 + 篇论文的综述 [5]，以及对应的视频教程 (Youtube [6] 和 bilibili [7])。不论你需要一个能复现的代码库，还是准确率最高的模型，还是公平比较的基准（包括数据集），或是未来研究的方向，GluonCV 0.9.0 里都能找到，一应俱全。

目前很多视频领域的数据集需要用户自行下载，而视频平台的管理与下载过程的网络波动都有可能使得每次下载的数据集不完全一致，进而导致不公平比较。因此，我们首先在统一的数据上复现了大量流行的视频动作识别算法（数据准备 GluonCV 也有提供 [8]）。如下表所示，我们逐一展示了每个模型的计算 FLOPS，参数量的大小，每秒可处理的视频帧数，延迟时间以及在 Kinetics400 数据集上的准确率。我们发现尽管 3D 网络的精度比 2D 网络稍高，但也会带来更多的计算消耗，延迟大大增加。对效率要求很高的系统，比如边缘设备，或许 2D 网络更适合部署。另外，预训练数据集的大小往往比模型的改进能带来更多的精度提升，比如两年前的 CSN [9] 模型在 IG65M [10] 大型数据集的加持下，可以轻松超越最新的所有算法。所以我们的一个结论是，视频方向从业者可以考虑尽可能多搜集或者清理一些数据，比一味的追求最新最好的模型要实用的多。除此之外，针对不同的应用需求，我们也应该灵活选用不同的网络。比如对于较短的视频，我们就无需选用具备长时间跨度建模的模型。如果想了解更多模型的特性，请参考我们的综述论文。

另外，训练一个 SOTA 的视频模型非常耗时耗力，即使在 8 卡 V100 的服务器上，动辄也要花费一周的时间。为了帮助大家快速迭代，我们提供了 DistributedDataParallel (DDP) 框架的支持和 Multigrid 训练方式 [11]。如下图所示，在单机 8 卡的设置下，基线 DataParallel (DP) 模式需要 250 小时完成 I3D 模型 100 个 epoch 的训练，我们的框架可以在 41 个小时内完成训练，比基线快 6 倍还不掉点。如果使用 4 个八卡 V100 的服务器，则可以在 10 小时内训练完毕，完美线性提速。相比而言，mmaction2 基于视频输入的 I3D [12] 在单机 8 卡上训练则需要 148 个小时。

总结

GluonCV 0.9.0 提供了基于 PyTorch 的视频动作识别的模型库。从做好玩的 demo，到有用的研究，到真正的落地，我们都有对应的配套教程。在接下来的发布中，我们还会陆续更新 PyTorch 的模型库，包括目标检测，目标跟踪，多模态视频学习以及自监督视频特征学习的模型。欢迎大家贡献自己的工作到 GluonCV 里来, 也欢迎给我们留 issue 开 PR，感谢小伙伴们一直以来的支持！

谁才是最强的视频动作识别算法？

总结

相关链接

相关内容