Human actions in video sequences are characterized by the complex interplay between spatial features and their temporal dynamics. In this paper, we propose novel tensor representations for compactly capturing such higher-order relationships between visual features for the task of action recognition. We propose two tensor-based feature representations, viz. (i) sequence compatibility kernel (SCK) and (ii) dynamics compatibility kernel (DCK); the former building on the spatio-temporal correlations between features, while the latter explicitly modeling the action dynamics of a sequence. We also explore generalization of SCK, coined SCK(+), that operates on subsequences to capture the local-global interplay of correlations, which can incorporate multi-modal inputs e.g., skeleton 3D body-joints and per-frame classifier scores obtained from deep learning models trained on videos. We introduce linearization of these kernels that lead to compact and fast descriptors. We provide experiments on (i) 3D skeleton action sequences, (ii) fine-grained video sequences, and (iii) standard non-fine-grained videos. As our final representations are tensors that capture higher-order relationships of features, they relate to co-occurrences for robust fine-grained recognition. We use higher-order tensors and so-called Eigenvalue Power Normalization (EPN) which have been long speculated to perform spectral detection of higher-order occurrences, thus detecting fine-grained relationships of features rather than merely count features in action sequences. We prove that a tensor of order r, built from Z* dimensional features, coupled with EPN indeed detects if at least one higher-order occurrence is `projected' into one of its binom(Z*,r) subspaces of dim. r represented by the tensor, thus forming a Tensor Power Normalization metric endowed with binom(Z*,r) such `detectors'.


翻译:视频序列中的人类动作的特征是空间特征及其时间动态之间的复杂相互作用。 在本文中, 我们提出新的演示, 用于在动作识别任务视觉特征之间紧紧捕更高顺序的关系。 我们提出两个基于温度的特征演示, 即:(一) 序列兼容性内核( SCK) 和(二) 动态兼容内核( DCK); 前者建在各功能之间的空间时空相关性上, 而后者则明确模拟一个序列的动作动态。 我们还探讨了在次序列上运行的SCK、 硬币 SCK( +) 的概括化, 以子序列为主, 来捕捉取地方- 全球相互关系的相互作用。 例如, 骨架 3D 机身连接和每个框架的分类分数。 我们对这些内层的内核动作进行了线化, 我们用3- 直系动作序列来进行实验, (二) 精细精细的视频序列, 和(三) 标准的非直径直系内核的内核内核关系, 因此, 直径直系内核的内核变变变变变。

0
下载
关闭预览

相关内容

最新《自监督表示学习》报告,70页ppt
专知会员服务
86+阅读 · 2020年12月22日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
【泡泡一分钟】OFF:快速鲁棒视频动作识别的运动表征
泡泡机器人SLAM
3+阅读 · 2019年3月12日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN最新研究进展综述
机器学习研究会
26+阅读 · 2018年1月6日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
8+阅读 · 2020年10月12日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关资讯
ICCV 2019 行为识别/视频理解论文汇总
极市平台
15+阅读 · 2019年9月26日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
【泡泡一分钟】OFF:快速鲁棒视频动作识别的运动表征
泡泡机器人SLAM
3+阅读 · 2019年3月12日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN最新研究进展综述
机器学习研究会
26+阅读 · 2018年1月6日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员