We present a new architecture of convolutional neural networks (CNNs) based on ResNet for audio pattern recognition tasks. The main modification is introducing a new hyper-parameter for decreasing temporal sizes of tensors with increased stride sizes which we call "the decreasing temporal size parameter". Optimal values of this parameter decrease the number of multi-adds that make the system faster. This approach not only decreases computational complexity but it can save and even increase (for the AudioSet dataset) the performance for audio pattern recognition tasks. This observation can be confirmed by experiments on three datasets: the AudioSet dataset, the ESC-50 dataset, and RAVDESS. Our best system achieves the state-of-the-art performance on the AudioSet dataset with mAP of 0.450. We also transfer a model pre-trained on the AudioSet dataset to the ESC-50 dataset and RAVDESS and obtain the state-of-the-art results with accuracies of 0.961 and 0.748, respectively. We call our system "ERANN" (Efficient Residual Audio Neural Network).


翻译:我们根据RESNet为音频模式识别任务提出了一个新的进化神经网络架构(CNNs) 。 主要的修改是引入一个新的超参数, 用于减少时间尺寸增大的变速器的时间尺寸, 我们称之为“ 时间大小降低的参数 ” 。 这个参数的最佳值会减少使系统更快的多添加数。 这个方法不仅降低计算复杂性,而且可以保存甚至增加( 音频Set数据集) 音频模式识别任务的性能。 这个观测可以通过三个数据集的实验得到证实: 音频卫星数据集、 ESC- 50 数据集和 RAVDESS。 我们的最佳系统实现了与0. 450 的音频卫星数据集上最先进的性能。 我们还将预先训练的音频卫星数据集模型转让给 ESC- 50 数据集和 RAVDESS, 并分别获得0. 961 和 0. 748 的状态技术结果。 我们称之为“ ERANNE” ( Effal Solutional Neal Net) 。

0
下载
关闭预览

相关内容

模式识别是一个成熟的、令人兴奋的、快速发展的领域,它支撑着计算机视觉、图像处理、文本和文档分析以及神经网络等相关领域的发展。它与机器学习非常相似,在生物识别、生物信息学、多媒体数据分析和最新的数据科学等新兴领域也有应用。模式识别(Pattern Recognition)杂志成立于大约50年前,当时该领域刚刚出现计算机科学的早期。在这期间,它已大大扩大。只要这些论文的背景得到了清晰的解释并以模式识别文献为基础,该杂志接受那些对模式识别理论、方法和在任何领域的应用做出原创贡献的论文。 官网地址:http://dblp.uni-trier.de/db/conf/par/
最新《Transformers模型》教程,64页ppt
专知会员服务
279+阅读 · 2020年11月26日
专知会员服务
59+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Arxiv
0+阅读 · 2021年7月27日
Arxiv
1+阅读 · 2021年7月27日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
279+阅读 · 2020年11月26日
专知会员服务
59+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Top
微信扫码咨询专知VIP会员