Speaker embeddings extracted with deep 2D convolutional neural networks are typically modeled as projections of first and second order statistics of channel-frequency pairs onto a linear layer, using either average or attentive pooling along the time axis. In this paper we examine an alternative pooling method, where pairwise correlations between channels for given frequencies are used as statistics. The method is inspired by style-transfer methods in computer vision, where the style of an image, modeled by the matrix of channel-wise correlations, is transferred to another image, in order to produce a new image having the style of the first and the content of the second. By drawing analogies between image style and speaker characteristics, and between image content and phonetic sequence, we explore the use of such channel-wise correlations features to train a ResNet architecture in an end-to-end fashion. Our experiments on VoxCeleb demonstrate the effectiveness of the proposed pooling method in speaker recognition.


翻译:以深 2D 共变神经网络提取的音响嵌入器通常以线性层的频道频率对对配第一和第二顺序统计数据的预测为模型,使用平均或仔细的集成时间轴。本文我们研究一种替代的集合方法,即将特定频率的频道对等关系用作统计。这种方法受计算机视觉中风格传输方法的启发,将由频道-相交矩阵模型模型制作的图像样式转移到另一张图像,以便产生一种具有第一层和第二层内容风格的新图像。我们通过在图像样式和发言者特点之间以及图像内容和音频序列之间绘制类比,探索如何使用这种频道-线性关联特征,以端到端的方式培训ResNet结构。我们在VoxCeleb上进行的实验展示了拟议组合方法在语音识别中的有效性。

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
108+阅读 · 2020年6月10日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
58+阅读 · 2020年5月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
已删除
将门创投
7+阅读 · 2020年3月13日
CCF推荐 | 国际会议信息6条
Call4Papers
9+阅读 · 2019年8月13日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
4+阅读 · 2020年3月27日
VIP会员
相关VIP内容
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
108+阅读 · 2020年6月10日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
58+阅读 · 2020年5月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Top
微信扫码咨询专知VIP会员