【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习 - 专知VIP

会员服务 ·

2

IJCAI · 视听学习 · 弱标记数据 ·

2020 年 6 月 3 日

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

识别声音是计算音频场景分析和机器感知的一个关键方面。在本文中，我们主张声音识别本质上是一个多模态的视听任务，因为它更容易区分声音使用音频和视觉模态，而不是一个或另一个。我们提出了一种视听融合模型，该模型能够从弱标记的视频记录中识别声音。所提出的融合模型利用注意力机制，将单个音频和视频模型的输出动态地结合起来。在大型音频事件数据集AudioSet上进行的实验证明了该模型的有效性，其性能优于单模态模型、最先进的融合和多模态模型。我们在Audioset上实现了46.16的平均精度(mAP)，比之前的技术水平高出大约4.35个mAP(相对:10.4%)。

成为VIP会员查看完整内容

19

相关内容

IJCAI

IJCAI

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

专知会员服务

38+阅读 · 2020年4月13日

【SIGMOD2020-腾讯】Web规模本体可扩展构建

【SIGMOD2020-腾讯】Web规模本体可扩展构建

专知会员服务

31+阅读 · 2020年4月12日

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

专知会员服务

22+阅读 · 2020年4月11日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

已删除

将门创投

4+阅读 · 2019年10月11日

【泡泡图灵智库】利用非线性因子恢复进行视觉惯性建图（CVPR）

【泡泡图灵智库】利用非线性因子恢复进行视觉惯性建图（CVPR）

泡泡机器人SLAM

18+阅读 · 2019年6月29日

Facebook频谱图模型生成比尔·盖茨声音，性能完胜WaveNet、MAESTRO

Facebook频谱图模型生成比尔·盖茨声音，性能完胜WaveNet、MAESTRO

AI100

3+阅读 · 2019年6月14日

浙大学霸本科生顶会研究！只需20分钟音频，AI就能逼真模仿你的声音

浙大学霸本科生顶会研究！只需20分钟音频，AI就能逼真模仿你的声音

量子位

8+阅读 · 2019年6月3日

【泡泡一分钟】 HBST：用于基于特征的视觉位置识别的汉明距离嵌入二叉搜索树

【泡泡一分钟】 HBST：用于基于特征的视觉位置识别的汉明距离嵌入二叉搜索树

泡泡机器人SLAM

6+阅读 · 2019年3月15日

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

机器之心

7+阅读 · 2019年2月7日

【紫冬声音】基于人体骨架的行为识别

【紫冬声音】基于人体骨架的行为识别

中国自动化学会

16+阅读 · 2019年1月30日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

【学界】密西根大学利用图像生成过程进行「数据增强」，以提高现实场景中「目标检测」的鲁棒性

【学界】密西根大学利用图像生成过程进行「数据增强」，以提高现实场景中「目标检测」的鲁棒性

GAN生成式对抗网络

9+阅读 · 2018年4月6日

【业界】DeepMind提出速度提高千倍的并行WaveNet语音合成方法

【业界】DeepMind提出速度提高千倍的并行WaveNet语音合成方法

专知

5+阅读 · 2017年11月23日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

Discovery and recognition of motion primitives in human activities

Discovery and recognition of motion primitives in human activities

Arxiv

4+阅读 · 2019年2月4日

Meta-Transfer Learning for Few-Shot Learning

Meta-Transfer Learning for Few-Shot Learning

Arxiv

8+阅读 · 2018年12月6日

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Arxiv

4+阅读 · 2018年11月29日

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

Arxiv

3+阅读 · 2018年5月31日

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Arxiv

7+阅读 · 2018年3月20日

Graph Attention Networks

Arxiv

10+阅读 · 2018年2月4日

Arxiv

8+阅读 · 2018年1月25日

Arxiv

7+阅读 · 2018年1月24日

Spatial-Temporal Memory Networks for Video Object Detection

Arxiv

4+阅读 · 2017年12月18日

VIP会员

相关主题

弱标记数据

相关VIP内容

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

【ICLR2020-CMU】学习使用主动神经SLAM进行探索，Active Neural SLAM

专知会员服务

38+阅读 · 2020年4月13日

【SIGMOD2020-腾讯】Web规模本体可扩展构建

【SIGMOD2020-腾讯】Web规模本体可扩展构建

专知会员服务

31+阅读 · 2020年4月12日

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

【CVPR2020-Facebook AI】扩展架构的高效视频识别，X3D: Expanding Architectures

专知会员服务

22+阅读 · 2020年4月11日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型基准综述

《自适应训练辅助系统概念导论及其在空战指挥官加速培训中的应用》125页

【剑桥博士论文】多智能体学习中的神经多样性

以色列-伊朗空战：短暂而激烈冲突的启示

相关资讯

已删除

将门创投

4+阅读 · 2019年10月11日

【泡泡图灵智库】利用非线性因子恢复进行视觉惯性建图（CVPR）

【泡泡图灵智库】利用非线性因子恢复进行视觉惯性建图（CVPR）

泡泡机器人SLAM

18+阅读 · 2019年6月29日

Facebook频谱图模型生成比尔·盖茨声音，性能完胜WaveNet、MAESTRO

Facebook频谱图模型生成比尔·盖茨声音，性能完胜WaveNet、MAESTRO

AI100

3+阅读 · 2019年6月14日

浙大学霸本科生顶会研究！只需20分钟音频，AI就能逼真模仿你的声音

浙大学霸本科生顶会研究！只需20分钟音频，AI就能逼真模仿你的声音

量子位

8+阅读 · 2019年6月3日

【泡泡一分钟】 HBST：用于基于特征的视觉位置识别的汉明距离嵌入二叉搜索树

【泡泡一分钟】 HBST：用于基于特征的视觉位置识别的汉明距离嵌入二叉搜索树

泡泡机器人SLAM

6+阅读 · 2019年3月15日

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

FAIR&MIT提出知识蒸馏新方法：数据集蒸馏

机器之心

7+阅读 · 2019年2月7日

【紫冬声音】基于人体骨架的行为识别

【紫冬声音】基于人体骨架的行为识别

中国自动化学会

16+阅读 · 2019年1月30日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

【学界】密西根大学利用图像生成过程进行「数据增强」，以提高现实场景中「目标检测」的鲁棒性

【学界】密西根大学利用图像生成过程进行「数据增强」，以提高现实场景中「目标检测」的鲁棒性

GAN生成式对抗网络

9+阅读 · 2018年4月6日

【业界】DeepMind提出速度提高千倍的并行WaveNet语音合成方法

【业界】DeepMind提出速度提高千倍的并行WaveNet语音合成方法

专知

5+阅读 · 2017年11月23日

相关论文

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

Discovery and recognition of motion primitives in human activities

Discovery and recognition of motion primitives in human activities

Arxiv

4+阅读 · 2019年2月4日

Meta-Transfer Learning for Few-Shot Learning

Meta-Transfer Learning for Few-Shot Learning

Arxiv

8+阅读 · 2018年12月6日

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Arxiv

4+阅读 · 2018年11月29日

Question Answering through Transfer Learning from Large Fine-grained Supervision Data

Arxiv

3+阅读 · 2018年5月31日

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Arxiv

7+阅读 · 2018年3月20日

Graph Attention Networks

Arxiv

10+阅读 · 2018年2月4日

Arxiv

8+阅读 · 2018年1月25日

Arxiv

7+阅读 · 2018年1月24日

Spatial-Temporal Memory Networks for Video Object Detection

Arxiv

4+阅读 · 2017年12月18日

微信扫码咨询专知VIP会员