对于口罩检测任务,研究人员实现了两种卷积神经网络系统,即ResNet和DenseNet,以提取高级嵌入,然后在这些嵌入上采用SVM进行决策。研究人员还利用三种数据增强方法,这些方法在端到端框架中实现了重大改进。受到在情感识别方面的工作的启发,研究人员从基于ResNet的预训练性别分类器中自动提取了性别相关特征。这些特征来自使用Voxceleb1数据集训练的性别分类器网络的倒数第二个线性层。ResNet结构几乎与论文《On-the-fly data loader and utterance-level aggregation for speaker and language recognition》中描述的相同,不同之处在于倒数第二线性层的输出节点数为100。为了引入说话者的信息,研究人员按照上述论文的配置训练模型并提取嵌入作为说话者相关特征。在口罩检测器的优化过程中,这两种特征会在不同级别上融合。表1展示了性别特征融合方法与说话者特征融合方法对口罩检测的贡献。融合了这两种特征的口罩检测性能要比其他特征好得多,这表明这两种信息对于口罩检测都是有效的。也就是说,戴口罩可能给说话者语音的性别特征和身份特征带来较大的影响。表1:开发集上利用融合性别和说话者特征的口罩检测UAR(%,未加权平均召回率)。在表2中可以看到,与基于DenseNet的系统相比,基于ResNet的系统实现了更好的性能。三种数据增强方法均有助于显著提高性能。与对开发集进行随机擦除相比,SpecAugment方法可实现更大的性能提高。将SpecAugment和随机擦除相结合没有带来改进,这意味着SpecAugment和随机擦除的效果不是互补的。该团队最终提交的系统是将表1和2中标有(*)的系统融合在一起得到的,其性能大大优于测试集上的基准系统。 表2:开发集和测试集上的UAR。 3 模型和方法