Convolutional neural networks (CNNs) with log-mel spectrum features have shown promising results for acoustic scene classification tasks. However, the performance of these CNN based classifiers is still lacking as they do not generalise well for unknown environments. To address this issue, we introduce an acoustic spectrum transformation network where traditional log-mel spectrums are transformed into imagined visual features (IVF). The imagined visual features are learned by exploiting the relationship between audio and visual features present in video recordings. An auto-encoder is used to encode images as visual features and a transformation network learns how to generate imagined visual features from log-mel. Our model is trained on a large dataset of Youtube videos. We test our proposed method on the scene classification task of DCASE and ESC-50, where our method outperforms other spectrum features, especially for unseen environments.


翻译:具有日录频谱特征的进化神经网络(CNNs)在声学场景分类任务中显示出了令人乐观的结果,然而,这些CNN分类器的性能仍然缺乏,因为它们无法对未知的环境进行概括。为了解决这一问题,我们引入了一个声学频谱转换网络,将传统的日录光谱转换成想象中的视觉特征(IVF)。通过利用视频录音中的音频和视觉特征之间的关系,可以了解想象的视觉特征。一个自动编码器被用来将图像编码为视觉特征,而一个转换网络则学会如何从日录上生成想象中的视觉特征。我们的模型在Youtube视频的大型数据集上接受培训。我们在DCASE和ESC-50的现场分类任务上测试了我们提出的方法,我们的方法优于其他频谱特征,特别是不可见环境。

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
专知会员服务
32+阅读 · 2021年6月12日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
181+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
已删除
创业邦杂志
5+阅读 · 2019年3月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Network Embedding 指南
专知
21+阅读 · 2018年8月13日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
已删除
创业邦杂志
5+阅读 · 2019年3月27日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Network Embedding 指南
专知
21+阅读 · 2018年8月13日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Top
微信扫码咨询专知VIP会员