We present pure-transformer based models for video classification, drawing upon the recent success of such models in image classification. Our model extracts spatio-temporal tokens from the input video, which are then encoded by a series of transformer layers. In order to handle the long sequences of tokens encountered in video, we propose several, efficient variants of our model which factorise the spatial- and temporal-dimensions of the input. Although transformer-based models are known to only be effective when large training datasets are available, we show how we can effectively regularise the model during training and leverage pretrained image models to be able to train on comparatively small datasets. We conduct thorough ablation studies, and achieve state-of-the-art results on multiple video classification benchmarks including Kinetics 400 and 600, Epic Kitchens, Something-Something v2 and Moments in Time, outperforming prior methods based on deep 3D convolutional networks. To facilitate further research, we release code at https://github.com/google-research/scenic/tree/main/scenic/projects/vivit


翻译:我们利用这些模型最近在图像分类方面取得的成功,为视频分类提供了纯转化的模型。我们的模型从输入的视频中提取了spatio-时间标志,然后用一系列变压器进行编码。为了处理在视频中遇到的长顺序的标本,我们提出了几种高效的模型变体,将输入的空间和时间分层纳入其中。虽然据了解,以变压器为基础的模型只有在有大型培训数据集的情况下才会有效,但我们展示了我们如何能够在培训和利用预先训练的图像模型时有效地规范该模型,以便能够在相对小的数据集上进行培训。我们进行了彻底的减缩研究,并在多个视频分类基准(包括动因学400和600)、Epic Kitchens、Some-mainting v2 和Moments in Times)上取得了最新的结果,在深层3D革命网络上的表现超过了以往的方法。为了便利进一步研究,我们在https://github.com/gogle-research/scennic/treit/maincisctistrate/mas)上发布了代码。

1
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
【Tutorial】计算机视觉中的Transformer,98页ppt
专知会员服务
139+阅读 · 2021年10月25日
专知会员服务
29+阅读 · 2021年7月30日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
专知会员服务
59+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
19+阅读 · 2020年12月23日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关VIP内容
【Tutorial】计算机视觉中的Transformer,98页ppt
专知会员服务
139+阅读 · 2021年10月25日
专知会员服务
29+阅读 · 2021年7月30日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
专知会员服务
59+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
AAAI2020 图相关论文集
图与推荐
10+阅读 · 2020年7月15日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
相关论文
Arxiv
39+阅读 · 2021年11月11日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
19+阅读 · 2020年12月23日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Top
微信扫码咨询专知VIP会员