DCASE 2020权威声学比赛：腾讯多媒体实验室斩获双项指标国内第一

2020 年 7 月 4 日 量子位

允中发自凹非寺
量子位编辑 | 公众号 QbitAI

近日，在第六届国际权威声学场景和事件检测及分类竞赛 (Detection and Classification of Acoustic Scenes and Events, DCASE 2020) 中，腾讯多媒体实验室天籁音频研究团队首次参加了声学场景识别 (Acoustic Scene Classification, Task 1) 任务竞赛，并从47支来自全球顶尖学术界和工业界的声学研究队伍中脱颖而出，取得双项指标国内第一、国际第二的成绩。

此次参赛是腾讯多媒体实验室领衔美国佐治亚理工大学信号与信息处理中心实验室，中国科技术大学语音及语言信息处理国家工程实验室联合参与，从最终评估的结果上看，在综合Task 1a (不限制声学模型大小评估识别性能)与 Task 1b (限制模型大小条件下评估识别性能)两个任务中，取得了综合第一名的成绩，在两个子任务中分别位列第二名，与第一名分数相比仅差0.3%。

△ Task 1a上的队伍排名

△ Task 1b上的队伍排名

DCASE 比赛是由伦敦玛丽女王大学（Queen Mary University of London）在2013年首次发起的声学场景识别挑战，后续由坦佩雷理工大学(Tamper University of Technology)持续发起，近些年引起了国内外众多尖端声学研究界的广泛关注，包括谷歌、纽约大学等。

本次DCASE 2020比赛，共设置六个任务，包括声学场景识别、异常机器声音的非监督识别、声学事件检测、声学事件分离、城市声音标记和自动为音频生成标题纪要，吸引了包括亚马逊、英特尔、高通骁龙等国际公司和清华大学、新加坡南洋理工大学、香港中文大学等顶级高校的共138个队伍、473个有效系统参赛。

其中，多媒体实验室所参加的声学场景识别任务 (Task 1)，共有47支队伍与179个提交系统参与，是所有任务中参赛队伍最多、提交系统最多、竞争程序最激烈的任务。清华大学、北京大学(深圳)、新加坡南洋理工大学等国内外顶级高校，以及高通人工智能研究院(首尔)、美国 Intel 研究院(加利福尼亚)等知名通信、科技公司均在其中。

Task 1包含了两个子任务，子任务task 1a的声学场景识别系统要求识别不同终端设备，比如手机、ipad或其它录音设备采集的音频，识别成不同的类别。如下图（左）所示，将不同设备不同场景采集的信号正确分类成“地铁站”、“公园”和“公共广场”。采用不同设备来评估场景识别系统就是为了验证系统对多种设备的鲁棒性。子任务task 1b的声学场景识别系统限制性的将模型大小压缩在500k以内，在此条件下，需要场景识别系统尽可能高效的识别“室内”、“室外”、“交通”这三种常见的声学大场景。这里对声学模型大小提出要求的初衷就是为了更好地将现有科学研究方法迅速转换成可以真正意义的落地产品，以克服设备上运行深度学习网络高CPU消耗的难题。

本次声学场景识别任务，涵盖机场、室内购物、地铁站台、街道行人、公共广场等10个通用声学场景。在现实生活中，这些通用声学场景，通常同时存在多个声音，并且会被环境噪声干扰。此次任务，通过研究来识别真实场景的声音场景和声音事件，对于让声音场景识别应用落地具有重要意义。

声学场景识别就是利用机器学习模仿人脑，对周边的环境进行有效及时的判断。随着深度学习的高度演化，声学场景识别的正确率有了飞跃提升。高识别率的场景识别系统则更进一步扩大其在生活中的应用场景。如智能“婴儿哭声”监控，可以有效帮助父母及时照看突然惊醒孩子，“枪声场景检测”可以应用在各类安防设备上，“鸟类啼叫场景”检测可以有效监测自然界生态的变化，“马路上警笛场景”检测可提醒路行人及车辆让出交通空间，“地铁”场景检测和“睡眠质量监测”等。

△ 现实生活中的声学场景识别应用

实际上，DCASE2020的声学场景识别任务，与多媒体实验室自研的音视频实时通信产品——“腾讯会议”中的声学场景识别落地应用最为贴近。基于领先的腾讯天籁音频解决方案，腾讯会议可以让不同地点、场景、设备终端同时远程接入，让远程在线沟通可行高效。

但由于不同入会者处的场景环境千变万化，或在安静办公室，或在嘈杂的公共场所，不同场景需要对音频流进行不同处理。如会议入会方检测到街道环境，需要对风声和交通噪音进行处理；如在开重要会议，如果某参会方所处嘈杂声学场景并忘记关闭麦克风，系统可提醒主持人或自动禁止嘈杂端麦克风；如检测到音乐场景，则不启动降噪算法，保证音乐可以高质量的传输到对端；如检测到漏回声场景，特别是一些移动端设备大音量外放声音时，可以开启残留回声消除算法。