语音模型注入视觉信息实现零样本AV-ASR——AVFormer (AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR) - 专知论文

会员服务 ·

0

语音识别 · 零样本 · 识别 · 样本 · 适配 ·

2023 年 3 月 29 日

AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR

翻译：语音模型注入视觉信息实现零样本AV-ASR——AVFormer

Paul Hongsuck Seo,Arsha Nagrani,Cordelia Schmid

from arxiv, CVPR 2023

Audiovisual automatic speech recognition (AV-ASR) aims to improve the robustness of a speech recognition system by incorporating visual information. Training fully supervised multimodal models for this task from scratch, however is limited by the need for large labelled audiovisual datasets (in each downstream domain of interest). We present AVFormer, a simple method for augmenting audio-only models with visual information, at the same time performing lightweight domain adaptation. We do this by (i) injecting visual embeddings into a frozen ASR model using lightweight trainable adaptors. We show that these can be trained on a small amount of weakly labelled video data with minimum additional training time and parameters. (ii) We also introduce a simple curriculum scheme during training which we show is crucial to enable the model to jointly process audio and visual information effectively; and finally (iii) we show that our model achieves state of the art zero-shot results on three different AV-ASR benchmarks (How2, VisSpeech and Ego4D), while also crucially preserving decent performance on traditional audio-only speech recognition benchmarks (LibriSpeech). Qualitative results show that our model effectively leverages visual information for robust speech recognition.

翻译：语音视觉自动语音识别（AV-ASR）通过整合视觉信息的方式提高了语音识别系统的鲁棒性。然而，从头开始训练一个全监督的多模态模型，需要大规模标注的音频-视觉数据集，而这在各个下游领域中都存在限制。本文提出AVFormer，一种向音频模型注入视觉信息并轻量级域自适应的简单方法。具体实践中，我们通过以下三个步骤实现了这一目标：(i) 使用轻量级可训练的适配器将视觉嵌入注入到音频ASR模型中；该适配器可以使用少量的弱标签视频数据进行训练，并且所需的额外训练时间和参数都极少。(ii) 我们同时采用了一种“课程学习”训练方法——在训练过程中增加渐进难度的任务——使用它能够更好地让音频和视觉信息在模型中获得有效的联合处理。(iii) 我们在三个AV-ASR基准数据集（How2、VisSpeech、Ego4D）上展示了AVFormer模型实现了零样本测试的最新结果——并且在传统的音频语音识别基准测试集（LibriSpeech）上也具备很好的性能表现。定性的实验结果表明，我们的模型能够有效地利用视觉信息提高语音识别的稳健性。

0

相关内容

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

专知会员服务

22+阅读 · 2022年3月7日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【文本生成现代方法】Modern Methods for Text Generation

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

专知会员服务

29+阅读 · 2020年4月17日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

近期必读的6篇 NeurIPS 2019 的零样本学习(Zero-Shot Learning)论文

近期必读的6篇 NeurIPS 2019 的零样本学习(Zero-Shot Learning)论文

专知会员服务

60+阅读 · 2019年12月24日

USB：首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准

USB：首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准

微软研究院AI头条

0+阅读 · 2022年9月26日

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

PaperWeekly

3+阅读 · 2022年9月21日

找不到中文语音预训练模型？中文版Wav2vec 2.0和HuBERT来了

找不到中文语音预训练模型？中文版Wav2vec 2.0和HuBERT来了

PaperWeekly

3+阅读 · 2022年6月6日

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了，腾讯游戏知几AI团队和西工大ASLP组联合出品

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了，腾讯游戏知几AI团队和西工大ASLP组联合出品

机器之心

3+阅读 · 2022年6月2日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

基于结构约束的多模态学习理论和方法

国家自然科学基金

6+阅读 · 2014年12月31日

语音及情感语义同步的三维人脸可视化：从发声器官到外观

国家自然科学基金

3+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

压缩感知LIDAR三维成像原理与方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于叠加训练（ST）信道估计的相干光正交频分复用系统研究

国家自然科学基金

0+阅读 · 2013年12月31日

同步辐射软X射线光束线光束位置无损在线监测技术的研究及其在纳米CT与透射扫描显微成像中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

由二维图像序列重建三维图像中的融合与拼接方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

心肌高表达mi-99a改善心肌梗死后心室重构及其机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

无重合多视域视觉信息融合与认知计算研究

国家自然科学基金

2+阅读 · 2009年12月31日

汉语文语转换中语义与表现力联合建模

国家自然科学基金

0+阅读 · 2008年12月31日

Decouple knowledge from paramters for plug-and-play language modeling

Arxiv

0+阅读 · 2023年5月19日

Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering

Arxiv

0+阅读 · 2023年5月19日

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

Arxiv

0+阅读 · 2023年5月18日

Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval

Arxiv

0+阅读 · 2023年5月18日

Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement

Arxiv

0+阅读 · 2023年5月17日

Evaluating Object Hallucination in Large Vision-Language Models

Evaluating Object Hallucination in Large Vision-Language Models

Arxiv

0+阅读 · 2023年5月17日

Continual Learning for End-to-End ASR by Averaging Domain Experts

Arxiv

0+阅读 · 2023年5月12日

Conditional Prompt Learning for Vision-Language Models

Conditional Prompt Learning for Vision-Language Models

Arxiv

13+阅读 · 2022年3月10日

Domain Generalization in Vision: A Survey

Arxiv

16+阅读 · 2021年7月18日

Meta-Transfer Learning for Zero-Shot Super-Resolution

Meta-Transfer Learning for Zero-Shot Super-Resolution

Arxiv

43+阅读 · 2020年2月27日

VIP会员

文章信息

相关主题

相关VIP内容

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

【CVPR 2022】一种无需使用负样本的自监督学习方法，Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes

专知会员服务

15+阅读 · 2022年3月12日

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

专知会员服务

22+阅读 · 2022年3月7日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【文本生成现代方法】Modern Methods for Text Generation

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

【CVPR2020-浙江大学-阿里巴巴】深层知识迁移的深层归因图，DEPARA: Deep Attribution Graph for Deep Knowledge Transferability

专知会员服务

29+阅读 · 2020年4月17日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

近期必读的6篇 NeurIPS 2019 的零样本学习(Zero-Shot Learning)论文

近期必读的6篇 NeurIPS 2019 的零样本学习(Zero-Shot Learning)论文

专知会员服务

60+阅读 · 2019年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】用于物理模拟的高效深度学习模型

大模型解决方案白皮书：社交陪伴场景全流程落地指南

《可持续创新之路：可组合系统构建军事技术新生态》

模型提取攻击与防御的系统综述：最新进展与展望

相关资讯

USB：首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准

USB：首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准

微软研究院AI头条

0+阅读 · 2022年9月26日

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

PaperWeekly

3+阅读 · 2022年9月21日

找不到中文语音预训练模型？中文版Wav2vec 2.0和HuBERT来了

找不到中文语音预训练模型？中文版Wav2vec 2.0和HuBERT来了

PaperWeekly

3+阅读 · 2022年6月6日

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了，腾讯游戏知几AI团队和西工大ASLP组联合出品

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了，腾讯游戏知几AI团队和西工大ASLP组联合出品

机器之心

3+阅读 · 2022年6月2日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

相关论文

Decouple knowledge from paramters for plug-and-play language modeling

Arxiv

0+阅读 · 2023年5月19日

Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering

Arxiv

0+阅读 · 2023年5月19日

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization

Arxiv

0+阅读 · 2023年5月18日

Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval

Arxiv

0+阅读 · 2023年5月18日

Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement

Arxiv

0+阅读 · 2023年5月17日

Evaluating Object Hallucination in Large Vision-Language Models

Evaluating Object Hallucination in Large Vision-Language Models

Arxiv

0+阅读 · 2023年5月17日

Continual Learning for End-to-End ASR by Averaging Domain Experts

Arxiv

0+阅读 · 2023年5月12日

Conditional Prompt Learning for Vision-Language Models

Conditional Prompt Learning for Vision-Language Models

Arxiv

13+阅读 · 2022年3月10日

Domain Generalization in Vision: A Survey

Arxiv

16+阅读 · 2021年7月18日

Meta-Transfer Learning for Zero-Shot Super-Resolution

Meta-Transfer Learning for Zero-Shot Super-Resolution

Arxiv

43+阅读 · 2020年2月27日

相关基金

基于结构约束的多模态学习理论和方法

国家自然科学基金

6+阅读 · 2014年12月31日

语音及情感语义同步的三维人脸可视化：从发声器官到外观

国家自然科学基金

3+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

压缩感知LIDAR三维成像原理与方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于叠加训练（ST）信道估计的相干光正交频分复用系统研究

国家自然科学基金

0+阅读 · 2013年12月31日

同步辐射软X射线光束线光束位置无损在线监测技术的研究及其在纳米CT与透射扫描显微成像中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

由二维图像序列重建三维图像中的融合与拼接方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

心肌高表达mi-99a改善心肌梗死后心室重构及其机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

无重合多视域视觉信息融合与认知计算研究

国家自然科学基金

2+阅读 · 2009年12月31日

汉语文语转换中语义与表现力联合建模

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员