Existing audio-visual event localization (AVE) handles manually trimmed videos with only a single instance in each of them. However, this setting is unrealistic as natural videos often contain numerous audio-visual events with different categories. To better adapt to real-life applications, in this paper we focus on the task of dense-localizing audio-visual events, which aims to jointly localize and recognize all audio-visual events occurring in an untrimmed video. The problem is challenging as it requires fine-grained audio-visual scene and context understanding. To tackle this problem, we introduce the first Untrimmed Audio-Visual (UnAV-100) dataset, which contains 10K untrimmed videos with over 30K audio-visual events. Each video has 2.8 audio-visual events on average, and the events are usually related to each other and might co-occur as in real-life scenes. Next, we formulate the task using a new learning-based framework, which is capable of fully integrating audio and visual modalities to localize audio-visual events with various lengths and capture dependencies between them in a single pass. Extensive experiments demonstrate the effectiveness of our method as well as the significance of multi-scale cross-modal perception and dependency modeling for this task.


翻译:现有的音频-视觉事件定位(AVE)处理具有单个实例的手动修剪视频。然而,这种设置是不现实的,因为自然视频经常包含具有不同类别的 numerous 音频-视觉事件。为了更好地适应实际应用,本文重点关注稠密本地化音频-视觉事件的任务,旨在联合定位和识别出在未剪辑视频中发生的所有音频-视觉事件。这个问题很具挑战性,因为它需要细粒度的音频-视觉场景和上下文理解。为了解决这个问题,我们引入了第一个未剪辑音频-视觉(UnAV-100)数据集,其中包含超过 30K 音频-视觉事件的 10K 个未剪辑视频。每个视频平均有 2.8 个音频-视觉事件,事件通常彼此相关并可能像实际场景中一样同时发生。接下来,我们使用一种新的学习框架来阐述任务,该框架能够完全集成音频和视觉模态,以单次传递定位具有不同长度的音频-视觉事件,并在其中捕获依赖关系。广泛实验表明了我们的方法的有效性以及多尺度跨模态感知和依赖建模对于这个任务的意义。

0
下载
关闭预览

相关内容

iOS 8 提供的应用间和应用跟系统的功能交互特性。
  • Today (iOS and OS X): widgets for the Today view of Notification Center
  • Share (iOS and OS X): post content to web services or share content with others
  • Actions (iOS and OS X): app extensions to view or manipulate inside another app
  • Photo Editing (iOS): edit a photo or video in Apple's Photos app with extensions from a third-party apps
  • Finder Sync (OS X): remote file storage in the Finder with support for Finder content annotation
  • Storage Provider (iOS): an interface between files inside an app and other apps on a user's device
  • Custom Keyboard (iOS): system-wide alternative keyboards

Source: iOS 8 Extensions: Apple’s Plan for a Powerful App Ecosystem
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
20+阅读 · 2022年4月20日
专知会员服务
12+阅读 · 2021年10月11日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
2+阅读 · 2023年5月12日
VIP会员
相关VIP内容
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
20+阅读 · 2022年4月20日
专知会员服务
12+阅读 · 2021年10月11日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
19+阅读 · 2021年3月2日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员