This paper describes joint effort of BUT and Telef\'onica Research on development of Automatic Speech Recognition systems for Albayzin 2020 Challenge. We compare approaches based on either hybrid or end-to-end models. In hybrid modelling, we explore the impact of SpecAugment layer on performance. For end-to-end modelling, we used a convolutional neural network with gated linear units (GLUs). The performance of such model is also evaluated with an additional n-gram language model to improve word error rates. We further inspect source separation methods to extract speech from noisy environment (i.e. TV shows). More precisely, we assess the effect of using a neural-based music separator named Demucs. A fusion of our best systems achieved 23.33% WER in official Albayzin 2020 evaluations. Aside from techniques used in our final submitted systems, we also describe our efforts in retrieving high quality transcripts for training.


翻译:本文介绍BET和Telef\'onica研究公司在为Albayzin2020挑战开发自动语音识别系统方面的联合努力。我们比较基于混合或端到端模式的方法。在混合模型中,我们探索了分层层对性能的影响。在端到端模型中,我们使用了带有门线单元(GLUs)的进化神经网络。这种模型的性能还用另外的正方格语言模型来评估,以提高字误差率。我们进一步检查源分离方法,以便从吵闹的环境(即电视节目)中提取语音。更准确地说,我们评估了使用以神经为基础的音乐分离器Demucs的效果。我们最佳系统的结合在官方的Albayzin2020年评价中达到了23.33% WER。除了我们最后提交的系统所使用的技术外,我们还介绍了我们为检索高质量培训记录而做出的努力。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
解读!10篇人机交互领域高引论文合集
THU数据派
11+阅读 · 2019年11月14日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
【泡泡一分钟】基于运动估计的激光雷达和相机标定方法
泡泡机器人SLAM
25+阅读 · 2019年1月17日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员