Label distributions in real-world are oftentimes long-tailed and imbalanced, resulting in biased models towards dominant labels. While long-tailed recognition has been extensively studied for image classification tasks, limited effort has been made for video domain. In this paper, we introduce VideoLT, a large-scale long-tailed video recognition dataset, as a step toward real-world video recognition. Our VideoLT contains 256,218 untrimmed videos, annotated into 1,004 classes with a long-tailed distribution. Through extensive studies, we demonstrate that state-of-the-art methods used for long-tailed image recognition do not perform well in the video domain due to the additional temporal dimension in video data. This motivates us to propose FrameStack, a simple yet effective method for long-tailed video recognition task. In particular, FrameStack performs sampling at the frame-level in order to balance class distributions, and the sampling ratio is dynamically determined using knowledge derived from the network during training. Experimental results demonstrate that FrameStack can improve classification performance without sacrificing overall accuracy.


翻译:真实世界的标签分布往往是长尾和不平衡的,导致对主要标签的偏差模型。虽然对图像分类任务进行了广泛研究,对长尾识别进行了广泛的研究,但对视频域却作了有限的努力。在本文中,我们引入了视频LT,这是一个大型长尾视频识别数据集,这是向真实世界视频识别迈出的一步。我们的视频LT包含256 218个未剪辑的视频,附加了说明,进入了长尾分布的1 004个班级。通过广泛的研究,我们证明用于长尾图像识别的最先进方法在视频域内效果不佳,因为视频数据中增加了时间层面。这促使我们提出FramtStack,这是长尾视频识别任务的一个简单而有效的方法。特别是,框架Stack在框架一级进行抽样,以平衡类分布,抽样比率是利用培训期间从网络获得的知识动态地决定的。实验结果表明,框架Stack可以在不牺牲总体准确性的情况下改进分类工作。

0
下载
关闭预览

相关内容

【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月24日
Arxiv
6+阅读 · 2021年3月11日
Equalization Loss for Long-Tailed Object Recognition
Arxiv
5+阅读 · 2020年4月14日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员