Mismatch between enrollment and test conditions causes serious performance degradation on speaker recognition systems. This paper presents a statistics decomposition (SD) approach to solve this problem. This approach decomposes the PLDA score into three components that corresponding to enrollment, prediction and normalization respectively. Given that correct statistics are used in each component, the resultant score is theoretically optimal. A comprehensive experimental study was conducted on three datasets with different types of mismatch: (1) physical channel mismatch, (2) speaking behavior mismatch, (3) near-far recording mismatch. The results demonstrated that the proposed SD approach is highly effective, and outperforms the ad-hoc multi-condition training approach that is commonly adopted but not optimal in theory.


翻译:校考和测试条件的错配导致扬声器识别系统出现严重性能退化。本文件展示了解决这一问题的统计分解(SD)方法。这一方法将PLDA分数分成了分别与招生、预测和正常化相对应的三个部分。鉴于每个部分使用正确的统计数据,由此得出的分数在理论上是最佳的。对三种不同类型不匹配的数据集进行了全面实验研究:(1) 物理频道不匹配,(2) 言语行为不匹配,(3) 近距离记录不匹配。结果显示,拟议的SD方法非常有效,超过了通常采用但理论上不理想的特设多条件培训方法。

0
下载
关闭预览

相关内容

说话人识别(Speaker Recognition),或者称为声纹识别(Voiceprint Recognition, VPR),是根据语音中所包含的说话人个性信息,利用计算机以及现在的信息识别技术,自动鉴别说话人身份的一种生物特征识别技术。 说话人识别研究的目的就是从语音中提取具有说话人表征性的特征,建立有 效的模型和系统,实现自动精准的说话人鉴别。
专知会员服务
229+阅读 · 2021年6月3日
【最受欢迎的概率书】《概率论:理论与实例》,490页pdf
专知会员服务
163+阅读 · 2020年11月13日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
3+阅读 · 2018年8月21日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
6+阅读 · 2018年7月29日
VIP会员
相关VIP内容
专知会员服务
229+阅读 · 2021年6月3日
【最受欢迎的概率书】《概率论:理论与实例》,490页pdf
专知会员服务
163+阅读 · 2020年11月13日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
3+阅读 · 2018年8月21日
Top
微信扫码咨询专知VIP会员