Sound event detection (SED) methods are tasked with labeling segments of audio recordings by the presence of active sound sources. SED is typically posed as a supervised machine learning problem, requiring strong annotations for the presence or absence of each sound source at every time instant within the recording. However, strong annotations of this type are both labor- and cost-intensive for human annotators to produce, which limits the practical scalability of SED methods. In this work, we treat SED as a multiple instance learning (MIL) problem, where training labels are static over a short excerpt, indicating the presence or absence of sound sources but not their temporal locality. The models, however, must still produce temporally dynamic predictions, which must be aggregated (pooled) when comparing against static labels during training. To facilitate this aggregation, we develop a family of adaptive pooling operators---referred to as auto-pool---which smoothly interpolate between common pooling operators, such as min-, max-, or average-pooling, and automatically adapt to the characteristics of the sound sources in question. We evaluate the proposed pooling operators on three datasets, and demonstrate that in each case, the proposed methods outperform non-adaptive pooling operators for static prediction, and nearly match the performance of models trained with strong, dynamic annotations. The proposed method is evaluated in conjunction with convolutional neural networks, but can be readily applied to any differentiable model for time-series label prediction.


翻译:正确事件探测(SED)方法的任务是通过有积极声音来源的存在来标出录音部分的标签。 SED通常是一个受到监督的机器学习问题,需要强烈说明每个声音来源在记录中每次同时出现或不存在的情况。然而,这种强烈的说明既耗费人力,也耗费大量费用,供人类旁听员制作,这限制了SED方法的实际可缩放性。在这项工作中,我们把SED视为一个多实例学习(MIL)问题,其中培训标签固定在短短的节录上,表明是否有或没有可靠的来源,而不是其时间地点。然而,模型仍然必须产生时间动态预测,在与培训期间的固定标签进行比较时,这种预测必须汇总(汇集)。为了便利这一汇总,我们开发了适应性集合操作员的组合,称为自动集合操作员,这种组合在共同集合操作员之间可以顺利地相互调和,例如最小模型、最大或平均集合,并自动适应声音来源的特性。我们评估了三个组合组合的组合操作员,在三个组合组合的联线上,在每一个案例中,与经过培训的动态预测操作员之间,任何组合都显示,任何稳定的模拟的模拟的模拟的模拟的计算方法都是最强的。

0
下载
关闭预览

相关内容

专知会员服务
61+阅读 · 2020年3月19日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
4+阅读 · 2018年10月5日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
4+阅读 · 2018年6月14日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
5+阅读 · 2016年12月29日
VIP会员
相关VIP内容
专知会员服务
61+阅读 · 2020年3月19日
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
相关论文
Arxiv
4+阅读 · 2018年10月5日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
4+阅读 · 2018年6月14日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
5+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员