We present a new architecture of convolutional neural networks (CNNs) based on ResNet for audio pattern recognition tasks. The main modification is introducing a new hyper-parameter for decreasing temporal sizes of tensors with increased stride sizes which we call "the decreasing temporal size parameter". Optimal values of this parameter decrease the number of multi-adds that make the system faster. This approach not only decreases computational complexity but it can save and even increase (for the AudioSet dataset) the performance for audio pattern recognition tasks. This observation can be confirmed by experiments on three datasets: the AudioSet dataset, the ESC-50 dataset, and RAVDESS. Our best system achieves the state-of-the-art performance on the AudioSet dataset with mAP of 0.450. We also transfer a model pre-trained on the AudioSet dataset to the ESC-50 dataset and RAVDESS and obtain the state-of-the-art results with accuracies of 0.961 and 0.748, respectively. We call our system "ERANN" (Efficient Residual Audio Neural Network).
翻译:我们根据RESNet为音频模式识别任务提出了一个新的进化神经网络架构(CNNs) 。 主要的修改是引入一个新的超参数, 用于减少时间尺寸增大的变速器的时间尺寸, 我们称之为“ 时间大小降低的参数 ” 。 这个参数的最佳值会减少使系统更快的多添加数。 这个方法不仅降低计算复杂性,而且可以保存甚至增加( 音频Set数据集) 音频模式识别任务的性能。 这个观测可以通过三个数据集的实验得到证实: 音频卫星数据集、 ESC- 50 数据集和 RAVDESS。 我们的最佳系统实现了与0. 450 的音频卫星数据集上最先进的性能。 我们还将预先训练的音频卫星数据集模型转让给 ESC- 50 数据集和 RAVDESS, 并分别获得0. 961 和 0. 748 的状态技术结果。 我们称之为“ ERANNE” ( Effal Solutional Neal Net) 。