【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR - 专知VIP

会员服务 ·

2

CVPR 2020 · 多模态语音识别 ·

2020 年 5 月 13 日

【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视觉通常被用作音频语音识别(ASR)的补充模态，尤其是在单独音频模态性能显著下降的嘈杂环境中。结合视觉模态，将ASR升级为多模态语音识别(multi-modality speech recognition, MSR)。本文提出了一个两阶段语音识别模型。在第一阶段，通过唇动的视觉信息将目标语音从背景噪声中分离出来，使模型能够清晰地理解。第二阶段，音频模态再次结合视觉模态，通过MSR子网络更好地理解语音，进一步提高识别率。还有一些其他的关键贡献:我们介绍了伪三维剩余卷积(P3D)为基础的视觉前端提取更多的判别性特征; 我们用时域卷积网络(TCN)将时域卷积块从1D ResNet升级到更适合于时域任务的时域卷积网络(TCN); MSR子网络建立在元素智能选通递归单元(eleat - gru)的顶部，在长序列中比Transformer更有效。我们在LRS3-TED和LRW数据集上进行了大量的实验。我们的两阶段模型(音频增强多模态语音识别，AE-MSR)始终以显著的优势实现了最先进的性能，这证明了AE-MSR的必要性和有效性。

成为VIP会员查看完整内容

41

相关内容

CVPR 2020

CVPR is the premier annual computer vision event comprising the main conference and several co-located workshops and short courses. With its high quality and low cost, it provides an exceptional value for students, academics and industry researchers. CVPR 2020 will take place at The Washington State Convention Center in Seattle, WA, from June 16 to June 20, 2020. http://cvpr2020.thecvf.com/

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

专知会员服务

69+阅读 · 2020年6月19日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【CVPR2020】图神经网络中的几何原理连接

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR2020-牛津大学】具有自适应邻域一致性的通信网络，Correspondence Networks with Adaptive Neighbourhood Consensus

【CVPR2020-牛津大学】具有自适应邻域一致性的通信网络，Correspondence Networks with Adaptive Neighbourhood Consensus

专知会员服务

16+阅读 · 2020年3月27日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

【WWW2020-北京大学】多模态多轮对话系统，Multi-Modality in Multi-Turn Dialog

【WWW2020-北京大学】多模态多轮对话系统，Multi-Modality in Multi-Turn Dialog

专知会员服务

58+阅读 · 2020年3月13日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

26+阅读 · 2019年11月23日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

图像超分辨率网络：RCAN

图像超分辨率网络：RCAN

极市平台

7+阅读 · 2019年8月18日

《pyramid Attention Network for Semantic Segmentation》

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

智能工厂4.0：数字世界和物理世界的融合（附下载）

智能工厂4.0：数字世界和物理世界的融合（附下载）

专知

17+阅读 · 2018年1月30日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

Simple Recurrent Unit For Sentence Classification

Simple Recurrent Unit For Sentence Classification

哈工大SCIR

6+阅读 · 2017年11月29日

语音识别之--CNN在语音识别中的应用

语音识别之--CNN在语音识别中的应用

微信AI

9+阅读 · 2017年8月16日

微信美女研究员：详解CNN在语音识别中的应用

微信美女研究员：详解CNN在语音识别中的应用

机械鸡

13+阅读 · 2017年7月28日

Discriminative structural graph classification

Arxiv

5+阅读 · 2019年6月5日

ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

Arxiv

6+阅读 · 2018年9月17日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

HyperDense-Net: A hyper-densely connected CNN for multi-modal image segmentation

Arxiv

6+阅读 · 2018年4月9日

Image Segmentation Using Subspace Representation and Sparse Decomposition

Arxiv

6+阅读 · 2018年4月6日

Discriminative Cross-View Binary Representation Learning

Arxiv

9+阅读 · 2018年4月4日

Learning Representative Temporal Features for Action Recognition

Arxiv

4+阅读 · 2018年3月14日

Improved Training of Generative Adversarial Networks Using Representative Features

Arxiv

7+阅读 · 2018年1月28日

Disentangled Person Image Generation

Arxiv

7+阅读 · 2018年1月21日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员

相关主题

多模态语音识别

相关VIP内容

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

专知会员服务

69+阅读 · 2020年6月19日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【CVPR2020】图神经网络中的几何原理连接

【CVPR2020】图神经网络中的几何原理连接

专知会员服务

57+阅读 · 2020年4月8日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR2020-牛津大学】具有自适应邻域一致性的通信网络，Correspondence Networks with Adaptive Neighbourhood Consensus

【CVPR2020-牛津大学】具有自适应邻域一致性的通信网络，Correspondence Networks with Adaptive Neighbourhood Consensus

专知会员服务

16+阅读 · 2020年3月27日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

【WWW2020-北京大学】多模态多轮对话系统，Multi-Modality in Multi-Turn Dialog

【WWW2020-北京大学】多模态多轮对话系统，Multi-Modality in Multi-Turn Dialog

专知会员服务

58+阅读 · 2020年3月13日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

26+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

图像超分辨率网络：RCAN

图像超分辨率网络：RCAN

极市平台

7+阅读 · 2019年8月18日

《pyramid Attention Network for Semantic Segmentation》

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

智能工厂4.0：数字世界和物理世界的融合（附下载）

智能工厂4.0：数字世界和物理世界的融合（附下载）

专知

17+阅读 · 2018年1月30日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

Simple Recurrent Unit For Sentence Classification

Simple Recurrent Unit For Sentence Classification

哈工大SCIR

6+阅读 · 2017年11月29日

语音识别之--CNN在语音识别中的应用

语音识别之--CNN在语音识别中的应用

微信AI

9+阅读 · 2017年8月16日

微信美女研究员：详解CNN在语音识别中的应用

微信美女研究员：详解CNN在语音识别中的应用

机械鸡

13+阅读 · 2017年7月28日

相关论文

Discriminative structural graph classification

Arxiv

5+阅读 · 2019年6月5日

ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

Arxiv

6+阅读 · 2018年9月17日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

HyperDense-Net: A hyper-densely connected CNN for multi-modal image segmentation

Arxiv

6+阅读 · 2018年4月9日

Image Segmentation Using Subspace Representation and Sparse Decomposition

Arxiv

6+阅读 · 2018年4月6日

Discriminative Cross-View Binary Representation Learning

Arxiv

9+阅读 · 2018年4月4日

Learning Representative Temporal Features for Action Recognition

Arxiv

4+阅读 · 2018年3月14日

Improved Training of Generative Adversarial Networks Using Representative Features

Arxiv

7+阅读 · 2018年1月28日

Disentangled Person Image Generation

Arxiv

7+阅读 · 2018年1月21日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

微信扫码咨询专知VIP会员