We study the problem of localizing audio-visual events that are both audible and visible in a video. Existing works focus on encoding and aligning audio and visual features at the segment level while neglecting informative correlation between segments of the two modalities and between multi-scale event proposals. We propose a novel MultiModulation Network (M2N) to learn the above correlation and leverage it as semantic guidance to modulate the related auditory, visual, and fused features. In particular, during feature encoding, we propose cross-modal normalization and intra-modal normalization. The former modulates the features of two modalities by establishing and exploiting the cross-modal relationship. The latter modulates the features of a single modality with the event-relevant semantic guidance of the same modality. In the fusion stage,we propose a multi-scale proposal modulating module and a multi-alignment segment modulating module to introduce multi-scale event proposals and enable dense matching between cross-modal segments. With the auditory, visual, and fused features modulated by the correlation information regarding audio-visual events, M2N performs accurate event localization. Extensive experiments conducted on the AVE dataset demonstrate that our proposed method outperforms the state of the art in both supervised event localization and cross-modality localization.


翻译:我们研究视听活动本地化的问题,这些视听活动在视频中既听觉又看得见; 现有工作的重点是在部分一级对视听特征进行编码和调整,同时忽视两种模式各部分之间和多尺度活动提案之间的信息相关性; 我们提议一个新颖的多式模拟网络(M2N),以学习上述相关性,并把它用作调控相关听觉、视觉和连接功能的语义指导; 特别是在功能编码期间,我们提议跨模式正常化和内部正常化; 前者通过建立和利用跨模式关系调整两种模式的特征; 后者以同一模式与事件相关的语义指导调整单一模式的特征; 在聚合阶段,我们提议一个多尺度的调整模块和一个多方向部分调控模块,以引入多规模事件提案,并使跨模式部门之间能够进行密集匹配; 前者通过建立和利用交叉模式关系,调整两种模式的特点; 后者调整单一模式的特征,同时调整与事件相关的语义和语义指导; M2N在组合阶段测试中,我们拟议的本地格式化数据系统化,以当地格式方式展示了我们的拟议地方化活动。

0
下载
关闭预览

相关内容

【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
【泡泡一分钟】基于视频修复的时空转换网络
泡泡机器人SLAM
5+阅读 · 2018年12月30日
二值多视角聚类:Binary Multi-View Clustering
我爱读PAMI
4+阅读 · 2018年6月24日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
0+阅读 · 2021年10月19日
Semantic Grouping Network for Video Captioning
Arxiv
3+阅读 · 2021年2月3日
VIP会员
相关VIP内容
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
Top
微信扫码咨询专知VIP会员