We propose a new perspective on video understanding by casting the video recognition problem as an image recognition task. We show that an image classifier alone can suffice for video understanding without temporal modeling. Our approach is simple and universal. It composes input frames into a super image to train an image classifier to fulfill the task of action recognition, in exactly the same way as classifying an image. We prove the viability of such an idea by demonstrating strong and promising performance on four public datasets including Kinetics400, Something-to-something (V2), MiT and Jester, using a recently developed vision transformer. We also experiment with the prevalent ResNet image classifiers in computer vision to further validate our idea. The results on Kinetics400 are comparable to some of the best-performed CNN approaches based on spatio-temporal modeling. our code and models will be made available at https://github.com/IBM/sifar-pytorch.


翻译:我们提出一个新的视频理解视角,将视频识别问题作为图像识别任务。 我们显示光是图像分类器就足以在不做时间模型的情况下进行视频理解。 我们的方法简单而普遍。 它将输入框组成一个超级图像分类器,以培训一个图像分类器完成行动识别任务,与对图像进行分类的方式完全相同。 我们通过在四个公共数据集上展示强大和有希望的表现来证明这种想法的可行性,包括动因400、某种东西(V2)、某种东西(MIT)和Jester,使用最近开发的视觉变异器。 我们还在计算机视觉中试用流行的ResNet图像分类器,以进一步验证我们的想法。 Kinitics400的结果可以与基于spatio-时间模型的一些最完善的CNN方法相比。 我们的代码和模型将在https://github.com/IBM/sifar-pytorch上公布。

0
下载
关闭预览

相关内容

专知会员服务
59+阅读 · 2021年3月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
0+阅读 · 2021年9月3日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
7+阅读 · 2018年4月24日
VIP会员
相关VIP内容
专知会员服务
59+阅读 · 2021年3月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Top
微信扫码咨询专知VIP会员