There has been a remarkable progress in learning a model which could recognise novel classes with only a few labeled examples in the last few years. Few-shot learning (FSL) for action recognition is a challenging task of recognising novel action categories which are represented by few instances in the training data. We propose a novel variational inference based architectural framework (HF-AR) for few shot activity recognition. Our framework leverages volume-preserving Householder Flow to learn a flexible posterior distribution of the novel classes. This results in better performance as compared to state-of-the-art few shot approaches for human activity recognition. approach consists of base model and an adapter model. Our architecture consists of a base model and an adapter model. The base model is trained on seen classes and it computes an embedding that represent the spatial and temporal insights extracted from the input video, e.g. combination of Resnet-152 and LSTM based encoder-decoder model. The adapter model applies a series of Householder transformations to compute a flexible posterior distribution that lends higher accuracy in the few shot approach. Extensive experiments on three well-known datasets: UCF101, HMDB51 and Something-Something-V2, demonstrate similar or better performance on 1-shot and 5-shot classification as compared to state-of-the-art few shot approaches that use only RGB frame sequence as input. To the best of our knowledge, we are the first to explore variational inference along with householder transformations to capture the full rank covariance matrix of posterior distribution, for few shot learning in activity recognition.


翻译:在学习一个能够承认新类的模型方面已经取得了显著的进展,在过去几年中,这些新类可以承认只有几个标签的例子。 少发的学习(FSL)对于行动识别是一个艰巨的任务,即承认培训数据中很少的例子所代表的新行动类别。 我们提出一个新的基于变式推断的建筑框架(HF-AR),用于很少的射击活动识别。 我们的框架利用数量保存家禽流动来学习新类的灵活后传分布。 这导致与最先进的、少发的人类活动识别方法相比,业绩更好。 方法包括基础模型和一个调整模型。 我们的架构包括一个基础模型和一个适配对模型模型。 基础模型是用观察的班级和调整模型,它是一个嵌入的嵌入式框架,它代表了从输入视频中提取的时空洞洞洞洞。 例如, Resnet-152 和 LSTMTM 组合以 编码- decoder 模型为基础。 调控模型仅将一系列的家畜级变缩矩阵转换应用于一个灵活的海报分布, 使得在少数试拍方法中具有更高的准确性。 在少数试判方法中进行。

0
下载
关闭预览

相关内容

注意力机制综述
专知会员服务
203+阅读 · 2021年1月26日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员