Video activity localization aims at understanding the semantic content in long untrimmed videos and retrieving actions of interest. The retrieved action with its start and end locations can be used for highlight generation, temporal action detection, etc. Unfortunately, learning the exact boundary location of activities is highly challenging because temporal activities are continuous in time, and there are often no clear-cut transitions between actions. Moreover, the definition of the start and end of events is subjective, which may confuse the model. To alleviate the boundary ambiguity, we propose to study the video activity localization problem from a denoising perspective. Specifically, we propose an encoder-decoder model named DenoiseLoc. During training, a set of action spans is randomly generated from the ground truth with a controlled noise scale. Then we attempt to reverse this process by boundary denoising, allowing the localizer to predict activities with precise boundaries and resulting in faster convergence speed. Experiments show that DenoiseLoc advances %in several video activity understanding tasks. For example, we observe a gain of +12.36% average mAP on QV-Highlights dataset and +1.64% mAP@0.5 on THUMOS'14 dataset over the baseline. Moreover, DenoiseLoc achieves state-of-the-art performance on TACoS and MAD datasets, but with much fewer predictions compared to other current methods.


翻译:视频活动定位旨在理解长视频中的语义内容并检索感兴趣的动作。检索到的动作及其起始和结束位置可用于制作精彩片段、时间动作检测等。不幸的是,学习精确的活动边界位置非常具有挑战性,因为时间活动在时间上是连续的,而且动作之间通常没有明确的转换。而且,起始和结束事件的定义是主观的,可能会让模型产生困惑。为了缓解边界模糊性,我们提出从去噪的角度研究视频活动定位问题。具体地,我们提出了一种编码器-解码器模型DenoiseLoc。在训练期间,使用控制的噪声比例从基本事实中随机生成一组动作跨度。然后,我们试图通过边界去噪来反转此过程,使定位器能够预测具有精确边界的活动,并导致更快的收敛速度。实验表明,DenoiseLoc进步了视频活动理解任务的准确性。例如,在QV-Highlights数据集上,我们观察到平均mAP提高了12.36%,在THUMOS'14数据集上,mAP@0.5提高了1.64%,均超过基线。此外,DenoiseLoc在TACoS和MAD数据集上取得了最先进的性能,但与其他当前方法相比,预测次数要少得多。

0
下载
关闭预览

相关内容

【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
14+阅读 · 2022年11月25日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
基于弱监督的视频时序动作检测的介绍
极市平台
30+阅读 · 2019年2月6日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【AAAI2023】对比掩码自动编码器的自监督视频哈希
专知会员服务
14+阅读 · 2022年11月25日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
基于弱监督的视频时序动作检测的介绍
极市平台
30+阅读 · 2019年2月6日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员