ResNet-based architecture has been widely adopted as the speaker embedding extractor in speaker verification system. Its standard topology and modularized design ease the human efforts on hyper parameter tuning. Therefore, width and depth are left as two major dimensions to further improve ResNet's representation power. However, simply increasing width or depth is not efficient. In this paper, we investigate the effectiveness of two new structures, i.e., ResNeXt and Res2Net, for speaker verification task. They introduce another two effective dimensions to improve model's representation capacity, called cardinality and scale, respectively. Experimental results on VoxCeleb data demonstrated increasing these two dimensions is more efficient than going deeper or wider. Experiments on two internal test sets with mismatched acoustic conditions also proved the generalization of ResNeXt and Res2Net architecture. Particularly, with Res2Net structure, our best model achieved state-of-the-art performance on VoxCeleb1 test set by reducing the EER by 18.5% relative. In addition, our system's modeling power for short utterances has been largely improved as a result of Res2Net module's multi-scale feature representation ability.


翻译:以 ResNet 为基础的架构已被广泛采用, 成为扩音器将抽取器嵌入语音验证系统中的发言者。 它的标准地形学和模块化设计可以缓解超参数调控方面的人类努力。 因此, 宽度和深度被留作进一步提高 ResNet 代表力的两个主要方面。 但是, 仅仅增加宽度或深度是效率不高的。 在本文中, 我们调查了两个新架构, 即 ResNeXt 和 Res2Net, 用于语音验证任务的效果。 它们引入了另外两个有效的层面, 以提高模型的代表能力, 分别被称为“ 基点” 和“ 比例” 。 VoxCeleb 数据的实验结果显示, 增加这两个维克斯- Celeb 数据比深化或扩大这两个层面的效率要高。 对两个内部测试组的实验也证明了 ResNeXt 和 Res2Net 结构的普遍化。 特别是 Res2Net 结构, 我们的最佳模型在 VoxCeleb1 测试上取得了最先进的性表现, 通过将 EER 相对减少18.5 % 。 此外, 我们的系统短音量的系统模型的短音量功能的模型能力已经大大改进了。

0
下载
关闭预览

相关内容

数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
41+阅读 · 2020年7月27日
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
13+阅读 · 2019年11月14日
Arxiv
4+阅读 · 2018年12月20日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
41+阅读 · 2020年7月27日
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员