This paper presents a novel task together with a new benchmark for detecting generic, taxonomy-free event boundaries that segment a whole video into chunks. Conventional work in temporal video segmentation and action detection focuses on localizing pre-defined action categories and thus does not scale to generic videos. Cognitive Science has known since last century that humans consistently segment videos into meaningful temporal chunks. This segmentation happens naturally, without pre-defined event categories and without being explicitly asked to do so. Here, we repeat these cognitive experiments on mainstream CV datasets; with our novel annotation guideline which addresses the complexities of taxonomy-free event boundary annotation, we introduce the task of Generic Event Boundary Detection (GEBD) and the new benchmark Kinetics-GEBD. Our Kinetics-GEBD has the largest number of boundaries (e.g. 32 of ActivityNet, 8 of EPIC-Kitchens-100) which are in-the-wild, taxonomy-free, cover generic event change, and respect human perception diversity. We view GEBD as an important stepping stone towards understanding the video as a whole, and believe it has been previously neglected due to a lack of proper task definition and annotations. Through experiment and human study we demonstrate the value of the annotations. Further, we benchmark supervised and un-supervised GEBD approaches on the TAPOS dataset and our Kinetics-GEBD. We release our annotations and baseline codes at CVPR'21 LOVEU Challenge: https://sites.google.com/view/loveucvpr21.


翻译:本文展示了一个新任务, 以及用于检测非常规、 无分类事件界限的新基准, 将整个视频分割成块块。 时间视频分割和行动探测的常规工作侧重于将预定义的行动类别本地化, 因而不比通用视频范围。 自上世纪以来, 认知科学已经知道, 人类始终将视频分割成有意义的时间块。 这种分割自然发生, 没有预定义的事件类别, 也没有明确要求这样做。 在这里, 我们重复了主流 CV 数据集的认知实验; 我们的新说明准则, 解决了无分类事件边界注释的复杂性。 我们引入了通用事件边界探测(GEBD)的任务, 以及新的基尼特- GEBD 基准任务。 我们的 Enticals- GEB 具有最大的界限( 例如, 活动网络 32, ELIC- Kitchens- 100 的 8 ) 。 我们重复了主流 CV 、 无分类- 、 覆盖通用事件变化和尊重人类认知多样性。 我们视 GEOD 是一个重要的基础, 理解普通事件定义, 以及我们先前忽视了视频- 的C 定义 和GEO 定义, 定义, 进一步展示了我们没有了我们的C- 基准 和 。

0
下载
关闭预览

相关内容

Cognition:Cognition:International Journal of Cognitive Science Explanation:认知:国际认知科学杂志。 Publisher:Elsevier。 SIT: http://www.journals.elsevier.com/cognition/
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
A Survey on GANs for Anomaly Detection
Arxiv
7+阅读 · 2021年9月14日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
13+阅读 · 2021年3月3日
Few-shot Scene-adaptive Anomaly Detection
Arxiv
8+阅读 · 2020年7月15日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
相关论文
Top
微信扫码咨询专知VIP会员