This report presents the technical details of our submission to the EPIC-Kitchens-100 Action Recognition Challenge 2021. To participate in the challenge we deployed spatio-temporal feature extraction and aggregation models we have developed recently: GSF and XViT. GSF is an efficient spatio-temporal feature extracting module that can be plugged into 2D CNNs for video action recognition. XViT is a convolution free video feature extractor based on transformer architecture. We design an ensemble of GSF and XViT model families with different backbones and pretraining to generate the prediction scores. Our submission, visible on the public leaderboard, achieved a top-1 action recognition accuracy of 44.82%, using only RGB.


翻译:本报告介绍了我们提交EPIC-Kitchens-100行动识别挑战(2021年)的技术细节。为了参与我们最近开发的超时特征提取和集成模型:GSF和XViT。GSF是一个高效的超时特征提取模块,可以插入2DCNN进行视频动作识别。XViT是一个基于变压器结构的革命自由视频特征提取器。我们设计了一个具有不同骨干和预培训的GSF和XViT模型家庭组合,以产生预测分数。我们的文件在公共领导板上可以看到,实现了44.82%的上一级行动识别精确度,仅使用RGB。

0
下载
关闭预览

相关内容

特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。 特征被检测后它可以从图像中被抽取出来。这个过程可能需要许多图像处理的计算机。其结果被称为特征描述或者特征向量。
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
已删除
将门创投
6+阅读 · 2019年1月2日
Arxiv
58+阅读 · 2021年11月15日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
5+阅读 · 2019年11月22日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
已删除
将门创投
6+阅读 · 2019年1月2日
相关论文
Arxiv
58+阅读 · 2021年11月15日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
5+阅读 · 2019年11月22日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Top
微信扫码咨询专知VIP会员