In this paper, we present UR-AIR system submission to the logical access (LA) and the speech deepfake (DF) tracks of the ASVspoof 2021 Challenge. The LA and DF tasks focus on synthetic speech detection (SSD), i.e. detecting text-to-speech and voice conversion as spoofing attacks. Different from previous ASVspoof challenges, the LA task this year presents codec and transmission channel variability, while the new task DF presents general audio compression. Built upon our previous research work on improving the robustness of the SSD systems to channel effects, we propose a channel-robust synthetic speech detection system for the challenge. To mitigate the channel variability issue, we use an acoustic simulator to apply transmission codec, compression codec, and convolutional impulse responses to augmenting the original datasets. For the neural network backbone, we propose to use Emphasized Channel Attention, Propagation and Aggregation Time Delay Neural Networks (ECAPA-TDNN) as our primary model. We also incorporate one-class learning with channel-robust training strategies to further learn a channel-invariant speech representation. Our submission achieved EER 20.33% in the DF task; EER 5.46% and min-tDCF 0.3094 in the LA task.


翻译:在本文中,我们将UR-AIR系统提交ASVspoof 2021挑战的逻辑存取(LA)和语音深假(DF)轨道。LA和DF的任务侧重于合成语音检测(SSD),即检测文本到语音和语音转换,以掩盖攻击。不同于先前的ASVspooof挑战,今年的LA任务显示代码和传输频道变异性,而新的任务DF则提供一般音频压缩。在我们先前关于提高SSD系统对频道效果的稳健性的研究的基础上,我们建议建立一个频道-robust 合成语音检测系统来应对挑战。为缓解频道变异性问题,我们使用声学模拟器应用传输代码、压缩代码和动态感应来增强原始数据集。关于神经网络主干网主干,我们提议使用Sweam 频道关注、促进和聚合时间延迟神经网络(ECAPA-TDNNN)作为我们的主要模型。我们还在EER-DF 20-resual Troad 上将一等学习了ERC-resmal 20% 高级语音任务,我们在EVAR-FDFDF 上学习了5-pal-pal-pal-fal-foration 20% 任务中学习。

1
下载
关闭预览

相关内容

专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
11+阅读 · 2019年4月15日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
10+阅读 · 2019年1月24日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关VIP内容
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
【推荐】(TensorFlow)SSD实时手部检测与追踪(附代码)
机器学习研究会
11+阅读 · 2017年12月5日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
相关论文
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
11+阅读 · 2019年4月15日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
10+阅读 · 2019年1月24日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
4+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员