Speaker identification typically involves three stages. First, a front-end speaker embedding model is trained to embed utterance and speaker profiles. Second, a scoring function is applied between a runtime utterance and each speaker profile. Finally, the speaker is identified using nearest neighbor according to the scoring metric. To better distinguish speakers sharing a device within the same household, we propose a household-adapted nonlinear mapping to a low dimensional space to complement the global scoring metric. The combined scoring function is optimized on labeled or pseudo-labeled speaker utterances. With input dropout, the proposed scoring model reduces EER by 45-71% in simulated households with 2 to 7 hard-to-discriminate speakers per household. On real-world internal data, the EER reduction is 49.2%. From t-SNE visualization, we also show that clusters formed by household-adapted speaker embeddings are more compact and uniformly distributed, compared to clusters formed by global embeddings before adaptation.


翻译:发言人身份通常分为三个阶段。 首先,前端发言人嵌入模式经过培训,可以嵌入话语和发言者简历。 其次,在运行时间发言和每个发言者简历之间应用评分功能。 最后,根据评分标准,确定发言者使用最近的邻居。为了更好地区分在同一住户内共用一个装置的发言者,我们建议用一个家庭适应的非线性绘图到一个低维空间,以补充全球评分指标。组合评分功能在标签或假标签的发言者口语中优化。随着投入的放弃,拟议的评分模式将模拟住户的EER减少45-71%,每户2至7位难以区分的发言者。在现实世界的内部数据中,EER的减少率为49.2%。从T-SNE可视化中,我们还显示,由家庭适应的发言者嵌入成的集群比适应前全球嵌入的集群更加紧凑和统一分布。

0
下载
关闭预览

相关内容

【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年10月26日
Arxiv
0+阅读 · 2021年10月22日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员