In the past decade, convolutional neural networks (CNNs) have been widely adopted as the main building block for end-to-end audio classification models, which aim to learn a direct mapping from audio spectrograms to corresponding labels. To better capture long-range global context, a recent trend is to add a self-attention mechanism on top of the CNN, forming a CNN-attention hybrid model. However, it is unclear whether the reliance on a CNN is necessary, and if neural networks purely based on attention are sufficient to obtain good performance in audio classification. In this paper, we answer the question by introducing the Audio Spectrogram Transformer (AST), the first convolution-free, purely attention-based model for audio classification. We evaluate AST on various audio classification benchmarks, where it achieves new state-of-the-art results of 0.485 mAP on AudioSet, 95.6% accuracy on ESC-50, and 98.1% accuracy on Speech Commands V2.


翻译:在过去十年中,革命神经网络(CNNs)被广泛采用,作为终端到终端音频分类模型的主要基石,目的是学习从音频光谱到相应标签的直接绘图。为了更好地捕捉长距离全球背景,最近的趋势是在CNN上添加一个自留机制,形成CNN关注的混合模式。然而,尚不清楚是否有必要依赖CNN,以及纯粹基于关注的神经网络是否足以在音频分类中获得良好性能。在本文中,我们通过引入音频谱变换器(AST)来回答这一问题,这是第一个无声频变换器(AST),这是第一个无音频变换、纯粹基于关注的音频分类模式。我们根据各种音频分类基准对AST进行了评估,在其中,它实现了关于音频Set的0.485 mAP、关于ESC-50的95.6%的准确度和关于语音指令V2的98.1%的准确度。

1
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
102+阅读 · 2020年7月22日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Interspeech 2019 | 从顶会看语音技术的发展趋势
AI科技评论
16+阅读 · 2019年9月19日
已删除
将门创投
4+阅读 · 2018年6月12日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年7月29日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Interspeech 2019 | 从顶会看语音技术的发展趋势
AI科技评论
16+阅读 · 2019年9月19日
已删除
将门创投
4+阅读 · 2018年6月12日
相关论文
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年7月29日
Arxiv
3+阅读 · 2018年6月19日
Top
微信扫码咨询专知VIP会员