【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR

2020 年 5 月 13 日 专知


视觉通常被用作音频语音识别(ASR)的补充模态,尤其是在单独音频模态性能显著下降的嘈杂环境中。结合视觉模态,将ASR升级为多模态语音识别(multi-modality speech recognition, MSR)。本文提出了一个两阶段语音识别模型。在第一阶段,通过唇动的视觉信息将目标语音从背景噪声中分离出来,使模型能够清晰地理解。第二阶段,音频模态再次结合视觉模态,通过MSR子网络更好地理解语音,进一步提高识别率。还有一些其他的关键贡献:我们介绍了伪三维剩余卷积(P3D)为基础的视觉前端提取更多的判别性特征; 我们用时域卷积网络(TCN)将时域卷积块从1D ResNet升级到更适合于时域任务的时域卷积网络(TCN); MSR子网络建立在元素智能选通递归单元(eleat - gru)的顶部,在长序列中比Transformer更有效。我们在LRS3-TED和LRW数据集上进行了大量的实验。我们的两阶段模型(音频增强多模态语音识别,AE-MSR)始终以显著的优势实现了最先进的性能,这证明了AE-MSR的必要性和有效性。


https://arxiv.org/abs/2005.05592


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DMSR” 可以获取判别性多模态语音识别, Discriminative Multi-modality SR》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
7

相关内容

【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
81+阅读 · 2020年6月9日
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
26+阅读 · 2020年4月1日
图像超分辨率网络:RCAN
极市平台
7+阅读 · 2019年8月18日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
Arxiv
5+阅读 · 2019年6月5日
Arxiv
7+阅读 · 2018年1月21日
VIP会员
Top
微信扫码咨询专知VIP会员