We present an iVector based Acoustic Scene Classification (ASC) system suited for real life settings where active foreground speech can be present. In the proposed system, each recording is represented by a fixed-length iVector that models the recording's important properties. A regularized Gaussian backend classifier with class-specific covariance models is used to extract the relevant acoustic scene information from these iVectors. To alleviate the large performance degradation when a foreground speaker dominates the captured signal, we investigate the use of the iVector framework on Mel-Frequency Cepstral Coefficients (MFCCs) that are derived from an estimate of the noise power spectral density. This noise-floor can be extracted in a statistical manner for single channel recordings. We show that the use of noise-floor features is complementary to multi-condition training in which foreground speech is added to training signal to reduce the mismatch between training and testing conditions. Experimental results on the DCASE 2016 Task 1 dataset show that the noise-floor based features and multi-condition training realize significant classification accuracy gains of up to more than 25 percentage points (absolute) in the most adverse conditions. These promising results can further facilitate the integration of ASC in resource-constrained devices such as hearables.


翻译:我们提出了一个基于 iVictor 的基于声频场景分类( ASC) 系统, 这个系统适合真实生活环境, 可以显示活跃的表面言语。 在提议的系统中, 每一个记录都由固定长度的iVector 代表, 以该记录的重要属性为模型。 一个常规化的高斯后端分类器, 使用特定等级的共变式模型从这些iVectors中提取相关的声频场信息。 当一个前台演讲者控制着所捕捉的信号时, 为了缓解大规模性能退化, 我们调查了使用基于Mel- Frecity Cepstrateal Covalies(MFCCs)的iVictor框架的情况。 在对噪音光谱密度的估计中, 每种记录都代表了固定长度的iVictor 。 这个噪音底可以以统计方式提取单一频道的录音。 我们显示, 使用噪声底功能是辅助多种条件的培训, 将地面言词添加到培训信号以减少培训和测试条件之间的不匹配。 DCS 2016 任务 1 数据集的实验结果显示, 基于噪音底地段的特征和多质培训可以进一步实现最差分级化结果, 。

0
下载
关闭预览

相关内容

最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
专知会员服务
42+阅读 · 2020年12月18日
专知会员服务
43+阅读 · 2020年9月25日
专知会员服务
60+阅读 · 2020年3月19日
已删除
将门创投
3+阅读 · 2019年1月8日
Arxiv
14+阅读 · 2021年6月30日
Teacher-Student Training for Robust Tacotron-based TTS
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年1月8日
Top
微信扫码咨询专知VIP会员