Most state-of-the-art Deep Learning systems for speaker verification are based on speaker embedding extractors. These architectures are commonly composed of a feature extractor front-end together with a pooling layer to encode variable-length utterances into fixed-length speaker vectors. In this paper we present Double Multi-Head Attention pooling, which extends our previous approach based on Self Multi-Head Attention. An additional self attention layer is added to the pooling layer that summarizes the context vectors produced by Multi-Head Attention into a unique speaker representation. This method enhances the pooling mechanism by giving weights to the information captured for each head and it results in creating more discriminative speaker embeddings. We have evaluated our approach with the VoxCeleb2 dataset. Our results show 6.09% and 5.23% relative improvement in terms of EER compared to Self Attention pooling and Self Multi-Head Attention, respectively. According to the obtained results, Double Multi-Head Attention has shown to be an excellent approach to efficiently select the most relevant features captured by the CNN-based front-ends from the speech signal.


翻译:用于语音校验的大多数最先进的深层学习系统都以扩音器嵌入提取器为基础。 这些架构通常由地物提取器前端和一个集合层组成, 将变长的音量编码成固定长的扬声器矢量。 在本文中, 我们展示了双倍多发注意集合, 扩大了我们先前基于自多发注意的方法。 在将多发注意生成的环境矢量汇总成一个独特的扬声器代表的集合层中增加了一个额外的自我注意层。 这个方法通过给每个头部所捕到的信息权重来增强集合机制, 并导致创建更具歧视性的扬声器嵌入器。 我们用 VoxCeleb2 数据集评估了我们的方法。 我们的结果显示, EER 与自发注意集合和自发多发注意相比,分别有6.09%和5.23%的相对改进。 根据所获得的结果, 双倍多发注意显示, 高效选择CNN前端从语音信号中捕捉到的最相关特征的极好方法。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
专知会员服务
27+阅读 · 2020年2月15日
注意力机制介绍,Attention Mechanism
专知会员服务
171+阅读 · 2019年10月13日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
Top
微信扫码咨询专知VIP会员