使用运动信息进行视觉声源定位的FlowGrad (FlowGrad: Using Motion for Visual Sound Source Localization) - 专知论文

会员服务 ·

0

声源定位 · 时域 · 视觉场景理解 · 光流 · 场景理解 ·

2023 年 4 月 14 日

FlowGrad: Using Motion for Visual Sound Source Localization

翻译：使用运动信息进行视觉声源定位的FlowGrad

Rajsuryan Singh,Pablo Zinemanas,Xavier Serra,Juan Pablo Bello,Magdalena Fuentes

from arxiv, Accepted in ICASSP 2023

Most recent work in visual sound source localization relies on semantic audio-visual representations learned in a self-supervised manner, and by design excludes temporal information present in videos. While it proves to be effective for widely used benchmark datasets, the method falls short for challenging scenarios like urban traffic. This work introduces temporal context into the state-of-the-art methods for sound source localization in urban scenes using optical flow as a means to encode motion information. An analysis of the strengths and weaknesses of our methods helps us better understand the problem of visual sound source localization and sheds light on open challenges for audio-visual scene understanding.

翻译：最近的视觉声源定位工作大多依赖于在自监督学习中学习的语义音频-视觉表示，并通过设计排除了视频中存在的时域信息。虽然这种方法被证明对于广泛使用的基准数据集非常有效，但在像城市交通这样具有挑战性的场景中，该方法并不够完善。本工作通过使用光流作为编码运动信息的手段，在最先进的城市场景中用于声源定位的方法中引入了时间上下文。对我们方法的优点和缺点进行分析有助于我们更好地理解视觉声源定位的问题，并为音频-视觉场景理解的开放性挑战提供一些启示。

0

相关内容

声源定位

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

14+阅读 · 2020年6月18日

自然语言处理中的注意力机制，Attention in Natural Language Processing

自然语言处理中的注意力机制，Attention in Natural Language Processing

专知会员服务

136+阅读 · 2020年5月30日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

计算机 | EMNLP 2019等国际会议信息6条

计算机 | EMNLP 2019等国际会议信息6条

Call4Papers

18+阅读 · 2019年4月26日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

泡泡机器人SLAM

23+阅读 · 2019年1月18日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

泡泡机器人SLAM

29+阅读 · 2018年10月28日

【泡泡机器人】ECCV2018之SLAM最新前沿动态（附文章链接和代码链接）

【泡泡机器人】ECCV2018之SLAM最新前沿动态（附文章链接和代码链接）

泡泡机器人SLAM

38+阅读 · 2018年9月23日

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

泡泡机器人SLAM

12+阅读 · 2018年4月17日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高分辨率遥感影像多特征稀疏表达与智能理解方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于视觉皮层信息处理机制的行人检测与行为识别

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度信息面向主动视觉任务的视觉目标遮挡检测与规避方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉显著性结构的特征提取和图像检索

国家自然科学基金

0+阅读 · 2012年12月31日

声子晶体和声超构材料的Schoch效应

国家自然科学基金

0+阅读 · 2012年12月31日

基于小型麦克风阵列的声源定位方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

融合颜色和形状的基于水平集的目标轮廓跟踪

国家自然科学基金

0+阅读 · 2009年12月31日

刚柔嵌段共聚物自组装行为的快速非格子Monte Carlo模拟研究

国家自然科学基金

0+阅读 · 2009年12月31日

SourceP: Smart Ponzi Schemes Detection on Ethereum Using Pre-training Model with Data Flow

Arxiv

0+阅读 · 2023年6月2日

Towards Source-free Domain Adaptive Semantic Segmentation via Importance-aware and Prototype-contrast Learning

Arxiv

0+阅读 · 2023年6月2日

Transformer-Based Visual Segmentation: A Survey

Arxiv

0+阅读 · 2023年6月2日

Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training

Arxiv

0+阅读 · 2023年5月31日

A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition

Arxiv

0+阅读 · 2023年5月30日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning

Arxiv

11+阅读 · 2021年12月16日

Medical Visual Question Answering: A Survey

Arxiv

15+阅读 · 2021年11月19日

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Arxiv

16+阅读 · 2021年5月26日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

VIP会员

文章信息

相关主题

视觉场景理解

相关VIP内容

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

14+阅读 · 2020年6月18日

自然语言处理中的注意力机制，Attention in Natural Language Processing

自然语言处理中的注意力机制，Attention in Natural Language Processing

专知会员服务

136+阅读 · 2020年5月30日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

52+阅读 · 2020年5月26日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《美空军条令出版物：战略打击》最新条令

《高能激光武器》22页slides

军事前沿模型

《面向小型无人机或无人飞行器的创新雷达探测与人工智能分类技术》263页

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

计算机 | EMNLP 2019等国际会议信息6条

计算机 | EMNLP 2019等国际会议信息6条

Call4Papers

18+阅读 · 2019年4月26日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

泡泡机器人SLAM

23+阅读 · 2019年1月18日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018

泡泡机器人SLAM

29+阅读 · 2018年10月28日

【泡泡机器人】ECCV2018之SLAM最新前沿动态（附文章链接和代码链接）

【泡泡机器人】ECCV2018之SLAM最新前沿动态（附文章链接和代码链接）

泡泡机器人SLAM

38+阅读 · 2018年9月23日

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

【泡泡一分钟】神经SLAM：使用外部存储器让智能体学习探索环境

泡泡机器人SLAM

12+阅读 · 2018年4月17日

相关论文

SourceP: Smart Ponzi Schemes Detection on Ethereum Using Pre-training Model with Data Flow

Arxiv

0+阅读 · 2023年6月2日

Towards Source-free Domain Adaptive Semantic Segmentation via Importance-aware and Prototype-contrast Learning

Arxiv

0+阅读 · 2023年6月2日

Transformer-Based Visual Segmentation: A Survey

Arxiv

0+阅读 · 2023年6月2日

Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training

Arxiv

0+阅读 · 2023年5月31日

A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition

Arxiv

0+阅读 · 2023年5月30日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning

Arxiv

11+阅读 · 2021年12月16日

Medical Visual Question Answering: A Survey

Arxiv

15+阅读 · 2021年11月19日

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Arxiv

16+阅读 · 2021年5月26日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高分辨率遥感影像多特征稀疏表达与智能理解方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于视觉皮层信息处理机制的行人检测与行为识别

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度信息面向主动视觉任务的视觉目标遮挡检测与规避方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于视觉显著性结构的特征提取和图像检索

国家自然科学基金

0+阅读 · 2012年12月31日

声子晶体和声超构材料的Schoch效应

国家自然科学基金

0+阅读 · 2012年12月31日

基于小型麦克风阵列的声源定位方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

融合颜色和形状的基于水平集的目标轮廓跟踪

国家自然科学基金

0+阅读 · 2009年12月31日

刚柔嵌段共聚物自组装行为的快速非格子Monte Carlo模拟研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员