When a sufficiently large far-field training data is presented, jointly optimizing a multichannel frontend and an end-to-end (E2E) Automatic Speech Recognition (ASR) backend shows promising results. Recent literature has shown traditional beamformer designs, such as MVDR (Minimum Variance Distortionless Response) or fixed beamformers can be successfully integrated as the frontend into an E2E ASR system with learnable parameters. In this work, we propose the self-attention channel combinator (SACC) ASR frontend, which leverages the self-attention mechanism to combine multichannel audio signals in the magnitude spectral domain. Experiments conducted on a multichannel playback test data shows that the SACC achieved a 9.3% WERR compared to a state-of-the-art fixed beamformer-based frontend, both jointly optimized with a ContextNet-based ASR backend. We also demonstrate the connection between the SACC and the traditional beamformers, and analyze the intermediate outputs of the SACC.


翻译:当提出足够大的远方培训数据时,共同优化多通道前端和端对端自动语音识别(E2E)后端显示有希望的结果。最近的一些文献显示传统光束设计,如MVDR(最小差异无扭曲反应)或固定光束,可以成功地作为前端并入E2E ASR系统,具有可学习的参数。在这项工作中,我们提议采用自我注意频道组合器(SCAC)ASR前端,利用自留机制将光谱范围内的多频道音频信号结合起来。在多频道回放测试数据上进行的实验显示,SACC取得了9.3%的WERR,而后者与最先进的固定的固定光谱基前端相比,两者都与基于内联网的ASR后端共同优化。我们还演示了SACC与传统信号的连接器之间的联系,并分析了SACC的中间输出。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【2020新书】使用Kubernetes开发高级平台,519页pdf
专知会员服务
67+阅读 · 2020年9月19日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
从GE工业互联网到中国工业互联网
未来产业促进会
4+阅读 · 2019年5月5日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
4+阅读 · 2020年3月27日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年5月10日
VIP会员
相关VIP内容
【2020新书】使用Kubernetes开发高级平台,519页pdf
专知会员服务
67+阅读 · 2020年9月19日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
从GE工业互联网到中国工业互联网
未来产业促进会
4+阅读 · 2019年5月5日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员