干货：手把手教你在音频分类DCASE2017比赛中夺冠

2017 年 9 月 22 日 全球人工智能

“全球人工智能”拥有十多万AI产业用户，10000多名AI技术专家。主要来自：北大，清华，中科院，麻省理工，卡内基梅隆，斯坦福，哈佛，牛津，剑桥...以及谷歌，腾讯，百度，脸谱，微软，阿里，海康威视，英伟达......等全球名校和名企。

最新消息：来自英国萨里大学的团队徐勇博士等夺得DCASE2017 challenge比赛冠军。战胜来自CMU, New York University, Bosch, USC, TUT, Singapore A* Star, KoreanAdvanced Institute of Science and Technology, Seoul National University andNational Taiwan University等学校的竞争对手有。下面手把手教你在音频分类DCASE2017比赛中夺冠：

随着人工智能和深度神经网络在图像，视频，和语音等领域的大火，AI在音频领域，包括场景分类，音频事件检测，网络音视频的应用需求也越来越多。DCASE是音频场景，音频事件的分类与检测的简称。DCASE的应用场景十分广泛，如智能家居，无人驾驶，复杂场景中的语音识别等。DCASE比赛是目前世界范围内最大规模的音频分类与检测比赛[1]，地位如同图像分类领域的ImageNet。本团队此次斩获音频标签第一名和弱监督声学事件检测第二名。下面就上夺冠历程的“干货”，包括模型的选择，trick的重要性。并发布可以一键run的代码。

DCASE (Detection and Classification ofAcoustic Scenes and Events)是由IEEE AASP授权的比赛，今年已举办第三届，由CMU，法国INRIA，芬兰Tampere科技大学共同举办。Google和Audio Analytic(位于英国剑桥的音频处理公司)共同赞助。

本次比赛有四个任务：声音场景分类，稀有事件检测，现实场景中的声学事件检测，和无人驾驶中的大规模弱监督声学事件检测。本团队参与了第四个任务：无人驾驶中的大规模弱监督声学事件检测，其中包含(a) 音频标签和 (b)弱监督声学事件检测两个子任务。此任务的数据集全部来自YouTube真实的视频，是Google发布的AudioSet以及youtube-8m [3]数据库的子集。

难点：1. 数据不均衡。如汽车出现的样本数远远大于滑板车出现的样本数。这种不均衡数据会极大影响网络的训练。2. 训练数据只有句子级的标签而没有帧级的标签，却要在测试集上给出帧级标签。弱标签是大规模音频处理领域中的一个难点。

模型

先上系统框架图，我们的基线是卷积循环神经网络Convolutional recurrent neural network (CRNN)。输入的是整个对数梅尔语谱图，最大的创新点是彻底摒弃sigmoid，ReLU等常见激活函数，而采用可以学习的gated linear units (GLU) [4]。所以某个CNN，都有两个模块：一个线性输出和一个GLU的sigmoid输出，该sigmoid输出可看作介于0和1之间的门，即为时频点上的attention，如果该时频点上的值是接近1，即说明该时频点的特征是有用的，会传到下一层；反之如果该时频点上的值接近0，则说明该时频点是噪声或包含无用的信息，不会被传到下一层。

技巧(Trick)

1. Batch Normalization用来稳定并加速训练。

2. 在每个mini-batch中，均衡了样本数据，缓解了数据不均衡问题。

3. 系统融合。

对于第二个弱监督的声学事件检测子任务，我们同样沿用上面的框图，不过在RNN后面的部分稍微做点改变：

上图是对第一幅图的帧上展开，原先的前向神经网络(FNN)模块，增加一个FNN-softmax模块，称为localization矢量，用以辅助推断当前帧的所属类标签。该方法的有意思的地方在于，我们最终还是用弱标签（句子级标签）训练，用中间变量（每一帧上的分类结果，图中虚线框内）作为声学事件检测结果。此成果曾经由本团队发表在Icassp2017和Interspeech2017上。