Current methods for video analysis often extract frame-level features using pre-trained convolutional neural networks (CNNs). Such features are then aggregated over time e.g., by simple temporal averaging or more sophisticated recurrent neural networks such as long short-term memory (LSTM) or gated recurrent units (GRU). In this work we revise existing video representations and study alternative methods for temporal aggregation. We first explore clustering-based aggregation layers and propose a two-stream architecture aggregating audio and visual features. We then introduce a learnable non-linear unit, named Context Gating, aiming to model interdependencies among network activations. Our experimental results show the advantage of both improvements for the task of video classification. In particular, we evaluate our method on the large-scale multi-modal Youtube-8M v2 dataset and outperform all other methods in the Youtube 8M Large-Scale Video Understanding challenge.


翻译:目前的视频分析方法往往利用预先训练的进化神经网络(CNNs)抽取框架级特征。这些特征随后通过简单的时间平均或更先进的经常性神经网络(如长期短期内存或封闭式经常性单元(GRU))来汇总,在这项工作中,我们修订现有的视频演示并研究时间汇总的替代方法。我们首先探索基于集群的聚合层,并提议一个汇集视听特征的双流结构。然后我们引入一个可学习的非线性单元,名为“背景定位”,旨在模拟网络激活之间的相互依存关系。我们的实验结果显示了两种改进对于视频分类任务的优势。特别是,我们评估了我们关于大型多式Youtube-8M v2数据集的方法,并超越了Youtube 8M大型视频理解挑战中的所有其他方法。

3
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
126+阅读 · 2020年5月14日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
VIP会员
Top
微信扫码咨询专知VIP会员