Deepfake speech detection presents a growing challenge as generative audio technologies continue to advance. We propose a hybrid training framework that advances detection performance through novel augmentation strategies. First, we introduce a dual-stage masking approach that operates both at the spectrogram level (MaskedSpec) and within the latent feature space (MaskedFeature), providing complementary regularization that improves tolerance to localized distortions and enhances generalization learning. Second, we introduce compression-aware strategy during self-supervised to increase variability in low-resource scenarios while preserving the integrity of learned representations, thereby improving the suitability of pretrained features for deepfake detection. The framework integrates a learnable self-supervised feature extractor with a ResNet classification head in a unified training pipeline, enabling joint adaptation of acoustic representations and discriminative patterns. On the ASVspoof5 Challenge (Track~1), the system achieves state-of-the-art results with an Equal Error Rate (EER) of 4.08% under closed conditions, further reduced to 2.71% through fusion of models with diverse pretrained feature extractors. when trained on ASVspoof2019, our system obtaining leading performance on the ASVspoof2019 evaluation set (0.18% EER) and the ASVspoof2021 DF task (2.92% EER).


翻译:随着生成式音频技术的持续进步,深度伪造语音检测面临日益严峻的挑战。我们提出一种混合训练框架,通过创新的增强策略提升检测性能。首先,我们引入一种双阶段掩码方法,在频谱图层面(MaskedSpec)和潜在特征空间(MaskedFeature)同时操作,提供互补的正则化机制,增强对局部失真的容忍度并促进泛化学习。其次,我们在自监督训练中引入压缩感知策略,在低资源场景下增加特征变异性,同时保持学习表征的完整性,从而提升预训练特征对深度伪造检测的适用性。该框架将可学习的自监督特征提取器与ResNet分类头集成于统一训练流程中,实现声学表征与判别模式的联合适配。在ASVspoof5挑战赛(Track~1)中,该系统在封闭条件下取得4.08%的等错误率(EER),达到当前最优水平;通过融合具有不同预训练特征提取器的模型,该指标进一步降至2.71%。当基于ASVspoof2019训练时,我们的系统在ASVspoof2019评估集(0.18% EER)和ASVspoof2021 DF任务(2.92% EER)上均取得领先性能。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
33+阅读 · 2022年3月18日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员