We address far-field speaker verification with deep neural network (DNN) based speaker embedding extractor, where mismatch between enrollment and test data often comes from convolutive effects (e.g. room reverberation) and noise. To mitigate these effects, we focus on two parametric normalization methods: per-channel energy normalization (PCEN) and parameterized cepstral mean normalization (PCMN). Both methods contain differentiable parameters and thus can be conveniently integrated to, and jointly optimized with the DNN using automatic differentiation methods. We consider both fixed and trainable (data-driven) variants of each method. We evaluate the performance on Hi-MIA, a recent large-scale far-field speech corpus, with varied microphone and positional settings. Our methods outperform conventional mel filterbank features, with maximum of 33.5% and 39.5% relative improvement on equal error rate under matched microphone and mismatched microphone conditions, respectively.


翻译:我们用深神经网络(DNN)的发言者嵌入提取器(DNN)进行远场语音校验,让注册和测试数据之间的不匹配往往来自混杂效应(如室反动)和噪音。为了减轻这些效应,我们侧重于两种参数正常化方法:单声道能源正常化(PCEN)和参数化的cepstral平均正常化(PCMN)。这两种方法都包含不同的参数,因此可以方便地与DNN(使用自动区分方法)结合,并与DNN(共同优化)。我们认为每种方法的固定和训练(数据驱动)变量都是固定的。我们评估了Hi-MIA的性能,这是一个最近的大型远方语音软件,拥有不同的麦克风和定位设置。我们的方法优于常规的Mel过滤库特性,在匹配的麦克风和不匹配的麦克风条件下,其平均出错率分别达到33.5%和39.5%的相对改善率。

0
下载
关闭预览

相关内容

专知会员服务
21+阅读 · 2021年9月23日
专知会员服务
50+阅读 · 2020年12月14日
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
Top
微信扫码咨询专知VIP会员