The choice of an optimal time-frequency resolution is usually a difficult but important step in tasks involving speech signal classification, e.g., speech anti-spoofing. The variations of the performance with different choices of timefrequency resolutions can be as large as those with different model architectures, which makes it difficult to judge what the improvement actually comes from when a new network architecture is invented and introduced as the classifier. In this paper, we propose a multi-resolution front-end for feature extraction in an end-to-end classification framework. Optimal weighted combinations of multiple time-frequency resolutions will be learned automatically given the objective of a classification task. Features extracted with different time-frequency resolutions are weighted and concatenated as inputs to the successive networks, where the weights are predicted by a learnable neural network inspired by the weighting block in squeeze-and-excitation networks (SENet). Furthermore, the refinement of the chosen timefrequency resolutions is investigated by pruning the ones with relatively low importance, which reduces the complexity and size of the model. The proposed method is evaluated on the tasks of speech anti-spoofing in ASVSpoof 2019 and its superiority has been justified by comparing with similar baselines.


翻译:选择最佳时空分辨率通常是一个困难但重要的步骤,涉及语音信号分类的任务,例如,言词反伪;不同时间频率分辨率的不同选择,其性能的变异可能与不同模型结构的变异一样大,因此难以判断新网络结构的创建和引入与分类器一样,其改善实际上来自什么。在本文件中,我们提议在终端到终端分类框架内为特征提取工作提供一个多分辨率的前端。鉴于分类任务的目的,将自动学习多种时间频率分辨率的最佳加权组合。不同时间频率分辨率的特性被抽取,与输入连续网络的特性相配为加权和搭配,后者的重量是由挤压和感应网络(SENet)中加权块所激发的可学习神经网络预测的。此外,对所选择的时间频率分辨率的精度进行调查,方法是对重要性相对较低的那些模型进行调整,从而降低模型的复杂性和大小。对以不同时间频率分辨率为不同分辨率的特征的特性进行了加权和配置方法进行了评价,在2019年前对类似基线进行对比。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
专知会员服务
44+阅读 · 2020年10月31日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
5+阅读 · 2020年3月16日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
专知会员服务
44+阅读 · 2020年10月31日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员