The work in this paper is driven by the question how to exploit the temporal cues available in videos for their accurate classification, and for human action recognition in particular? Thus far, the vision community has focused on spatio-temporal approaches with fixed temporal convolution kernel depths. We introduce a new temporal layer that models variable temporal convolution kernel depths. We embed this new temporal layer in our proposed 3D CNN. We extend the DenseNet architecture - which normally is 2D - with 3D filters and pooling kernels. We name our proposed video convolutional network `Temporal 3D ConvNet'~(T3D) and its new temporal layer `Temporal Transition Layer'~(TTL). Our experiments show that T3D outperforms the current state-of-the-art methods on the HMDB51, UCF101 and Kinetics datasets. The other issue in training 3D ConvNets is about training them from scratch with a huge labeled dataset to get a reasonable performance. So the knowledge learned in 2D ConvNets is completely ignored. Another contribution in this work is a simple and effective technique to transfer knowledge from a pre-trained 2D CNN to a randomly initialized 3D CNN for a stable weight initialization. This allows us to significantly reduce the number of training samples for 3D CNNs. Thus, by finetuning this network, we beat the performance of generic and recent methods in 3D CNNs, which were trained on large video datasets, e.g. Sports-1M, and finetuned on the target datasets, e.g. HMDB51/UCF101. The T3D codes will be released


翻译:本文中的工作是由如下问题驱动的: 如何利用视频中可用的时间提示进行准确分类, 特别是人类行动识别? 到目前为止, 视觉界一直关注固定的时间内核内核深度的时空方法。 我们引入了一个新的时间层, 模拟时变内核深度。 我们把这个新的时间层嵌入了我们提议的 3D CNN 。 我们扩展了 DenseNet 结构 — 通常为 2D 过滤器, 并集中了核心。 我们命名了我们提议的视频演动网络“ 3D ConvNet~ (T3D) ” 及其新的时层“ 时空过渡层 ” 。 我们的实验显示, T3D 超越了当前在 HMDB51、 UCF 101 和 Kinitietics 数据集中的状态方法。 我们培训 3D ConvNet 的另一个问题是用一个巨大的标记数据集来训练他们如何获得合理的性能。 因此, 在IMNF 3 初步的初始数据传输中, 从 3D 学到的精细 3D 技术, 将使得HML 3 数据转换成为了 。

8
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
106+阅读 · 2020年6月10日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Arxiv
6+阅读 · 2018年4月3日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员