This study addresses the problem of single-channel Automatic Speech Recognition of a target speaker within an overlap speech scenario. In the proposed method, the hidden representations in the acoustic model are modulated by speaker auxiliary information to recognize only the desired speaker. Affine transformation layers are inserted into the acoustic model network to integrate speaker information with the acoustic features. The speaker conditioning process allows the acoustic model to perform computation in the context of target-speaker auxiliary information. The proposed speaker conditioning method is a general approach and can be applied to any acoustic model architecture. Here, we employ speaker conditioning on a ResNet acoustic model. Experiments on the WSJ corpus show that the proposed speaker conditioning method is an effective solution to fuse speaker auxiliary information with acoustic features for multi-speaker speech recognition, achieving +9% and +20% relative WER reduction for clean and overlap speech scenarios, respectively, compared to the original ResNet acoustic model baseline.


翻译:本研究涉及在重叠演讲情景下对目标演讲者进行单声道自动语音识别的问题。在拟议方法中,音响模型中的隐蔽表达方式由发言者辅助信息调节,只识别想要的发言者。在音响模型网络中插入了松动变异层,将音响信息与声学特征相结合。扩音调节程序允许音响模型在目标发言人辅助信息的背景下进行计算。拟议音响调节方法是一种一般方法,可以适用于任何音响模型结构。在这里,我们使用ResNet声学模型上的扬声器调节。WSJ机上的实验显示,与最初的ResNet声学模型基线相比,拟议的扬声器调节方法是一种有效的解决办法,可以将具有声学特征的语音辅助信息用于多声频语音识别,在清洁和重叠语音情景下分别实现+9%和+20%的相对WER减少。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
11+阅读 · 2019年4月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
8+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年7月29日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
11+阅读 · 2019年4月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
Top
微信扫码咨询专知VIP会员