This paper presents VTN, a transformer-based framework for video recognition. Inspired by recent developments in vision transformers, we ditch the standard approach in video action recognition that relies on 3D ConvNets and introduce a method that classifies actions by attending to the entire video sequence information. Our approach is generic and builds on top of any given 2D spatial network. In terms of wall runtime, it trains $16.1\times$ faster and runs $5.1\times$ faster during inference while maintaining competitive accuracy compared to other state-of-the-art methods. It enables whole video analysis, via a single end-to-end pass, while requiring $1.5\times$ fewer GFLOPs. We report competitive results on Kinetics-400 and present an ablation study of VTN properties and the trade-off between accuracy and inference speed. We hope our approach will serve as a new baseline and start a fresh line of research in the video recognition domain. Code and models will be available soon.


翻译:本文介绍了VTN, 这是一个基于变压器的视频识别框架。 受视觉变压器最新动态的启发, 我们放弃了依赖 3D ConvNet 的视频动作识别标准方法, 并引入了一种通过关注整个视频序列信息对行动进行分类的方法。 我们的方法是通用的, 建立在任何给定的 2D 空间网络之上。 在墙运行时间方面, 它培训了16.1 美元, 在推断过程中速度更快, 运行了5.1 美元, 同时保持了与其他最新方法相比的竞争性精确度。 它通过单一端到端通行证, 使得整个视频分析得以进行, 同时需要1.5美元, 更少的GFLOPs 。 我们报告了Kinitics-400 上的竞争性结果, 并介绍了VTN属性以及精确速度和推算速度之间的折算研究。 我们希望我们的方法将作为一个新的基线, 并开始在视频识别领域开展新的研究。 代码和模型将很快可用。

1
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
110+阅读 · 2019年11月25日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
将门创投
7+阅读 · 2018年4月25日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
1+阅读 · 2021年3月24日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
6+阅读 · 2019年4月8日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
VIP会员
相关VIP内容
相关资讯
已删除
将门创投
7+阅读 · 2018年4月25日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
相关论文
Arxiv
1+阅读 · 2021年3月24日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
6+阅读 · 2019年4月8日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Top
微信扫码咨询专知VIP会员