Temporal Activity Detection aims to predict activity classes per frame, in contrast to video-level predictions as done in Activity Classification (i.e., Activity Recognition). Due to the expensive frame-level annotations required for detection, the scale of detection datasets is limited. Thus, commonly, previous work on temporal activity detection resorts to fine-tuning a classification model pretrained on large-scale classification datasets (e.g., Kinetics-400). However, such pretrained models are not ideal for downstream detection performance due to the disparity between the pretraining and the downstream fine-tuning tasks. This work proposes a novel self-supervised pretraining method for detection leveraging classification labels to mitigate such disparity by introducing frame-level pseudo labels, multi-action frames, and action segments. We show that the models pretrained with the proposed self-supervised detection task outperform prior work on multiple challenging activity detection benchmarks, including Charades and MultiTHUMOS. Our extensive ablations further provide insights on when and how to use the proposed models for activity detection. Code and models will be released online.


翻译:与活动分类(即活动识别)中的视频水平预测相比,时间活动探测旨在预测每个框架的活动类别,与活动分类(即活动识别)中的视频级别预测不同。由于检测所需的框架层次说明费用昂贵,探测数据集的规模有限。因此,通常,以往关于时间活动探测的工作采用对大规模分类数据集(如动因-400)预先培训的分类模型进行微调的办法。然而,由于培训前和下游微调任务之间的差距,这种预先培训的模型对于下游探测性能并不理想。这项工作提出了一种新的自我监督的检测利用分类标签的训练前方法,通过采用框架层次的假标签、多动作框架和行动部分来缩小这种差异。我们表明,这些模型事先经过了对大规模分类数据集(例如动因-400)进行自我监督的检测任务的培训,比以前关于具有挑战性的活动探测基准(包括Charades和MultiTHHUMOS)的工作要好。我们将在线发布关于何时和如何使用拟议活动探测模型的深入了解。代码和模型。我们将在网上发布。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Fully-Convolutional Siamese Networks for Object Tracking论文笔记
统计学习与视觉计算组
9+阅读 · 2018年10月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
VIP会员
Top
微信扫码咨询专知VIP会员