Transformers have revolutionized the world of deep learning, specially in the field of natural language processing. Recently, the Audio Spectrogram Transformer (AST) was proposed for audio classification, leading to state of the art results in several datasets. However, in order for ASTs to outperform CNNs, pretraining with ImageNet is needed. In this paper, we study one component of the AST, the positional encoding, and propose several variants to improve the performance of ASTs trained from scratch, without ImageNet pretraining. Our best model, which incorporates conditional positional encodings, significantly improves performance on Audioset and ESC-50 compared to the original AST.


翻译:最近,音频分光变异器(AST)被推荐用于音频分类,导致若干数据集的最新结果。然而,为了使ASTS的功能超过CNN,需要用图像网络进行预先培训。在本文中,我们研究AST的一个组成部分,即定位编码,并提出若干变体来改进从零开始训练的AST的性能,而没有图像网络的预培训。我们的最佳模型包括有条件的定位编码,大大改进了音频和ESC-50的性能,与原AST相比。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年8月22日
专知会员服务
45+阅读 · 2021年6月1日
【AAAI2021】用于多标签图像分类的深度语义词典学习
专知会员服务
15+阅读 · 2020年12月30日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年12月3日
Arxiv
11+阅读 · 2021年10月26日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Top
微信扫码咨询专知VIP会员