In this paper, we presents a low-complexity deep learning frameworks for acoustic scene classification (ASC). The proposed framework can be separated into three main steps: Front-end spectrogram extraction, back-end classification, and late fusion of predicted probabilities. First, we use Mel filter, Gammatone filter and Constant Q Transfrom (CQT) to transform raw audio signal into spectrograms, where both frequency and temporal features are presented. Three spectrograms are then fed into three individual back-end convolutional neural networks (CNNs), classifying into ten urban scenes. Finally, a late fusion of three predicted probabilities obtained from three CNNs is conducted to achieve the final classification result. To reduce the complexity of our proposed CNN network, we apply two model compression techniques: model restriction and decomposed convolution. Our extensive experiments, which are conducted on DCASE 2021 (IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events) Task 1A development dataset, achieve a low-complexity CNN based framework with 128 KB trainable parameters and the best classification accuracy of 66.7%, improving DCASE baseline by 19.0%


翻译:在本文中,我们提出了一个用于声学场景分类(ASC)的低复杂深度学习框架。拟议框架可以分为三个主要步骤:前端光谱提取、后端分类和预测概率的延迟混合。首先,我们使用梅尔过滤器、伽马酮过滤器和Constant Q Transfrom (CQT)将原始音频信号转换成光谱仪,其中既显示频率,也显示时间特征。然后将三种光谱图输入三个单独的后端神经神经网络(CNNs),分为10个城市。最后,从3个CNN获得的三种预测概率的延迟结合,以实现最后的分类结果。为降低我们拟议的CNN网络的复杂性,我们采用了两种模型压缩技术:模型限制和分解卷。我们在DCASE 2021(IEASP对声波场景和事件的探测和分类的挑战)任务1A,A数据集,实现了基于128 KB培训参数的低兼容性CNN框架,并用19个基准参数和最佳的精确度来改进DC%的基线。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
《动手学深度学习》(Dive into Deep Learning)PyTorch实现
专知会员服务
119+阅读 · 2019年12月31日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
小样本学习(Few-shot Learning)综述
PaperWeekly
120+阅读 · 2019年4月1日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
8+阅读 · 2018年12月6日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关资讯
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
小样本学习(Few-shot Learning)综述
PaperWeekly
120+阅读 · 2019年4月1日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
14+阅读 · 2018年5月29日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
Top
微信扫码咨询专知VIP会员