This paper explores three novel approaches to improve the performance of speaker verification (SV) systems based on deep neural networks (DNN) using Multi-head Self-Attention (MSA) mechanisms and memory layers. Firstly, we propose the use of a learnable vector called Class token to replace the average global pooling mechanism to extract the embeddings. Unlike global average pooling, our proposal takes into account the temporal structure of the input what is relevant for the text-dependent SV task. The class token is concatenated to the input before the first MSA layer, and its state at the output is used to predict the classes. To gain additional robustness, we introduce two approaches. First, we have developed a Bayesian estimation of the class token. Second, we have added a distilled representation token for training a teacher-student pair of networks using the Knowledge Distillation (KD) philosophy, which is combined with the class token. This distillation token is trained to mimic the predictions from the teacher network, while the class token replicates the true label. All the strategies have been tested on the RSR2015-Part II and DeepMine-Part 1 databases for text-dependent SV, providing competitive results compared to the same architecture using the average pooling mechanism to extract average embeddings.


翻译:本文探索了三种创新方法,用多头自留(MSA)机制和记忆层来利用深神经网络(DNNN)来利用多头自留(MSA)机制和记忆层来改进语音校验系统(SV)的性能。 首先,我们提议使用一种叫做类符号的可学习矢量来取代普通全球集合机制来提取嵌入器。 与全球平均集合不同, 我们的提案考虑到了投入的时间结构, 与依赖文本的 SV 任务相关。 类符号在第一个管理服务协议层之前被连接到输入, 其输出状态被用来预测等级。 为了获得更多的稳健性, 我们引入了两种方法。 首先, 我们开发了一种巴耶斯语对类符号的估算。 第二, 我们添加了一种蒸馏代号, 用于培训使用知识蒸馏(KD) 理念的一对一对教师- 网络学生进行学习, 这与类符号相结合。 这个蒸馏符号是用来模拟教师网络的预测, 而其输出状态则用来复制真实的标签。 所有战略都经过了RSR- Part commestal- commestal II II IP 1

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
298+阅读 · 2020年11月26日
回顾目标检测中的Anchor机制
极市平台
8+阅读 · 2020年10月14日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
听说你还没读过 Bert 源码?
AINLP
7+阅读 · 2019年8月7日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
298+阅读 · 2020年11月26日
相关资讯
回顾目标检测中的Anchor机制
极市平台
8+阅读 · 2020年10月14日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
听说你还没读过 Bert 源码?
AINLP
7+阅读 · 2019年8月7日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员